Nature Methods|可解释机器学习在计算生物学中的应用与陷阱

news/2025/1/22 13:25:39/文章来源:https://www.cnblogs.com/shiyanhe/p/18685623

在计算生物学和生物信息学领域,机器学习技术正迅速改变着我们对生物系统的研究方式。然而,随着模型复杂度的增加,如何解释这些模型的行为并从中提取生物学意义,成为了一个亟待解决的问题。

最近,卡内基梅隆大学的Jian Ma和Ameet Talwalkar团队在《Nature Methods》杂志上发表了一篇题为“Applying interpretable machine learning in computational biology—pitfalls, recommendations and opportunities for new developments”的综述文章,为我们提供了关于可解释机器学习(IML)在计算生物学中应用的全面视角。

image

IML:为何重要?

机器学习模型,尤其是深度学习模型,因其强大的预测能力而被广泛应用于计算生物学,例如基因表达预测、蛋白质相互作用分析和生物医学图像处理等。然而,这些模型通常被视为“黑箱”,难以理解其决策过程。

可解释机器学习的出现,旨在通过解释模型的预测结果,帮助研究人员验证模型是否真正反映了生物学机制,从而为生物学研究提供更可靠的工具。

IML两大类方法

文章介绍了两类主要的IML方法:事后解释(Post hoc explanations)设计时解释(By-design explanations)

  • 事后解释是在模型训练完成后进行的,具有模型不可知性,适用于各种模型。常见的方法包括基于梯度的方法(如DeepLIFT、Integrated Gradients)和基于扰动的方法(如SHAP、LIME)。这些方法通过计算输入特征的重要性分数,帮助研究人员理解哪些特征对模型的预测贡献最大。

  • 设计时解释则是将可解释性嵌入模型架构中,例如线性模型、决策树和生物学驱动的神经网络。这类方法通过设计模型使其自然具备可解释性,例如将生物通路信息整合到神经网络中,使得模型的隐藏节点对应于生物实体,从而可以直接解释其权重。

image

IML评估指标

文章中介绍了两类主要的评估IML方法的指标:忠实度(Faithfulness)和 稳定性(Stability)。

image

忠实度(Faithfulness)

定义: 忠实度是评估IML方法生成的解释与底层机器学习模型真实机制之间一致性的度量。它反映了解释在多大程度上准确地揭示了模型的决策过程。

评估方法:

  • 基准测试:通过在多个数据集上进行基准测试,比较不同IML方法生成的解释与已知的真实机制。例如,在基因表达预测模型中,可以使用已知的基因调控网络作为真实机制的参考,评估IML方法是否能够准确识别出与基因调控相关的特征。
  • 合成数据:在一些情况下,研究人员会使用合成数据来编码真实逻辑的变化,从而评估IML方法的忠实度。然而,文章指出,在计算生物学中,合成数据可能无法完全捕捉真实生物过程的复杂性,因此在实际应用中可能需要更多地依赖真实数据来评估忠实度。

应用场景: 在计算生物学中,例如在分析转录因子结合位点的预测模型时,忠实度评估可以帮助研究人员确定IML方法是否能够准确识别出影响转录因子结合的关键序列模式。

稳定性(Stability)

定义: 稳定性是衡量IML方法生成的解释在面对输入数据的小扰动时的一致性。它回答了“对于相似的输入,解释是否一致?”的问题。

评估方法:

  • 输入扰动:通过对输入数据进行小的扰动(例如,改变DNA序列中的一个核苷酸),观察IML方法生成的特征重要性分数是否发生显著变化。如果解释在输入扰动下保持稳定,那么该IML方法的稳定性较好。
  • 重复实验:在相同的模型和数据集上多次运行IML方法,评估生成的解释是否一致。例如,使用不同的随机种子或不同的模型初始化进行多次实验,观察特征重要性分数的分布情况。

应用场景: 在细胞图像分类任务中,稳定性评估可以帮助研究人员确定IML方法是否能够一致地识别出与细胞表型相关的图像特征,即使在图像存在轻微噪声或变化的情况下。

IML应用:从序列到图像

IML方法在计算生物学中的应用非常广泛,涵盖了从DNA、RNA和蛋白质序列分析到生物医学图像处理的多个领域。例如,通过分析基因表达数据,IML可以帮助识别关键生物标志物;在序列分析中,IML能够揭示调控基因表达的重要序列模式;在图像分析中,IML可以突出显示细胞图像中与特定表型相关的区域。

然而,文章也指出了当前IML应用中常见的三个陷阱:

  • 仅依赖单一IML方法 :不同IML方法可能因算法和假设不同而产生不同的解释结果。例如,在转录因子结合位点的分析中,不同的IML方法可能会识别出不同的关键序列模式。因此,建议结合多种IML方法进行分析,以获得更全面的模型行为理解。
  • IML输出与生物学解释脱节 :IML方法虽然可以识别出重要的特征,但这些特征并不一定直接对应于生物学意义。例如,在DNA序列分析中,需要通过后续分析(如序列模式发现或统计富集分析)将重要性分数转化为生物学解释。
  • 选择性展示结果 :许多研究仅展示与已知生物学机制一致的IML结果,而忽略了其他可能揭示新机制的特征。这种选择性展示可能导致对模型行为的片面理解。因此,建议对整个数据集进行全面分析,并评估特征重要性的一致性。

image

大语言模型时代:IML的新机遇

随着大语言模型(LLMs)在计算生物学中的应用不断增加,如何解释这些复杂模型的行为成为了一个新的挑战。文章提出了几个发展方向:

  • 生物数据的分词策略 :如何选择合适的分词方法以更好地反映生物学背景,是当前的一个关键问题。例如,DNA序列的分词方法可能影响对基因调控网络的解释。

  • 针对LLMs的IML方法 :现有的LLMs解释技术(如注意力机制)在生物学中的应用仍处于初级阶段。未来需要开发更多适合生物学的解释方法,例如将LLMs的输出转化为可验证的生物学假设。

  • 多模态数据的解释 :随着多模态数据(如基因组学与表观基因组学数据)的整合,如何解释不同模态之间的相互作用,也成为了一个亟待解决的问题。

总结与展望

可解释机器学习在计算生物学中的应用前景广阔,但也面临着诸多挑战。文章不仅为我们提供了IML方法的全面概述,还指出了当前应用中的常见问题,并提出了未来发展的方向。对于计算生物学和生物信息学的研究人员来说,这篇文章无疑是一个宝贵的资源,它提醒我们在追求模型预测能力的同时,不要忽视对模型行为的深入理解和解释。
在这个快速发展的领域,我们期待更多的研究能够填补IML方法与生物学应用之间的差距,从而推动计算生物学迈向一个新的高度。

参考文献

Chen, Valerie, et al. "Applying interpretable machine learning in computational biology—pitfalls, recommendations and opportunities for new developments." Nature methods 21.8 (2024): 1454-1461.

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/873207.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

manim边做边学--淡入淡出变换

今天介绍Manim中用于淡入淡出变换的3个动画类:FadeToColor:聚焦于对象颜色的平滑转换,通过渐变增强视觉效果 FadeTransform:实现不同对象之间的渐变替换,让元素转换更加连贯 FadeTransformPieces:突出将对象碎片化并对各部分单独变换,适用于复杂物体的分解重组这三者都在…

抽取网易云音乐热门评论:html+css+python+js 音乐与灵魂的碰撞

抽取网易云音乐热门评论:html+css+python+js 音乐与灵魂的碰撞抽取网易云音乐热门评论:html+css+python+js 音乐与灵魂的碰撞 代码链接不说废话,上代码!!! get.py # get.py import urllib.request import urllib.error import urllib.parse import json# 抓取网易云音乐指…

快手HoME多任务论文

论文链接:HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou 背景 论文指出现在的MMOE/PLE模型存在以下几个问题: 1. 专家崩溃:专家的输出分布存在显着差异,并且一些专家使用 ReLU 的零激活率超过 90%,使得门网络很难分配公平的权重来平衡专家…

Linux 笔记

目录Linux 目录结构Linux 目录与 Windows 目录对比Windows 目录结构Linux 目录结构Linux 世界里---一切皆文件Linux 目录结构详解/bin/sbin/home/root/boot/lib/etc/usr/proc, 别动/srv, 别动/sys, 别动/tmp/dev/media/mnt/opt/usr/local/var/selinux常用快捷键案例常用命令开机…

Prometheus+Grafana 监控搭建

Prometheus+Grafana 监控搭建 Prometheus 是使用 Golang 开发的,安装和运行都非常简单,只需直接运行可执行文件即可。个人认为,只要理解了 Prometheus 的架构图,整体概念就会变得非常清晰。 Prometheus 做的挺成熟,使用非常简单,主要是想自己记录一下,方便后续记忆。 1、…

【防火墙】防火墙监控没做好,断网2小时准备提桶跑路

防火墙告警:该业务CPU负荷过多(81>= 80) ,发现吞吐量超过设备性能阈值,导致网络特别卡,客户端体现就是偶尔网络中断。 之前有篇文章是针对华三的防火墙指标数据采集做了介绍说明,可点击这里查看 网络监控:华三防火墙监控 这篇文章了解,在防火墙可观测性领域目前案例分…

nRF21540—低功耗蓝牙,蓝牙mesh、Thread和Zigbee和2.4 GHz私有协议范围扩展射频前端模块

nRF21540是一款射频前端模块(FEM),可用于改善短距离无线产品的传输范围和连接鲁棒性。作为一款辅助性设备,nRF21540是一种“即插即用型”的无线传输范围扩展器,可与nRF52和nRF53系列的高级多协议无线SoC搭配使用,所需的外部器件数量非常少。 nRF21540的+13dB RX增益和低…

Transformer 学习与解读

LLM学习笔记 注意力机制 sequence to sequence (seq2seq)输入N个向量,输出任意可能数量的向量(由机器决定);如果输出N个向量的任务就叫做Sequence Labeling 李沐课程讲义:https://zh-v2.d2l.ai/chapter_attention-mechanisms/self-attention-and-positional-encoding.ht…

JDK中的可视化故障处理工具

JDK提供了几个功能集成度更高的可视化工具,我们可以使用这些可视化工具以更加便捷的方式进行进程故障诊断和调试工作。 今天就简单介绍一些JDK中的可视化故障处理工具。 JHSDB:基于服务性代理的调试工具 在说JHSDB之前,先来了解一下JCMD和JHSDB这两个集成式的多功能工具箱,…

ExKMP Z函数

讲解Z函数(ExKMP),附模板及例题更新日志 20250122:开工。思路 我们定义 \(z_i\) 表示从 \(i\) 开始的后缀与整个字符串的最长公共前缀长度。 考虑它的作用,假如我们要字符串匹配,将模式串接在前面并以特殊字符分隔,然后 \(O(n)\) 遍历原串,当 \(z_i=|T|\)(\(T\) 为模式…

【资产梳理】 攻击面资产梳理可视化工具

免责声明: ⽂中所涉及的技术、思路和⼯具仅供以安全为⽬的的学习交流使⽤,任何⼈不得将其⽤于⾮法⽤途以及盈利等⽬的,否则后果⾃⾏承担。所有渗透都需获取授权!确定攻击面对于防御和进攻网络安全团队都至关重要。毫无疑问,可视化映射比简单的列表更有效。专家可以快速掌握…

OpenWRT24.10旁路由挂载USB移动硬盘,配置Samba4,作为NAS使用,解决中文不显示,乱码,解决断电重启后挂载失败问题

1. 为何选择OpenWRT 24.10,及如何配置旁路由,或者IPv6地址 看这篇:参OpenWRT24.10配置作为旁路由,并配置获取IPv4和IPv6地址 使用的OpenWRT固件是从这里下载的:https://openwrt.ai/ 2.挂载大容量USB移动硬盘 2.1 安装必备插件 kmod-fs-ntfs3 kmod-fs-ext4 kmod-fs-exfat…