bioRxiv|L2G:一张GPU卡也能训的基因组学语言模型

news/2025/1/26 18:35:03/文章来源:https://www.cnblogs.com/shiyanhe/p/18689181

预训练语言模型(如BERT、GPT等)在自然语言处理(Natural Language Processing, NLP)领域取得了显著进展,其在多种语言任务中的表现令人瞩目。这一成功激发了基因组学领域的研究者们尝试开发类似的基础模型(Foundation Models, FMs),以解决复杂的基因组学任务。然而,构建高质量的基因组学基础模型通常需要消耗大量计算资源和高质量的训练数据。

针对这一挑战,来自卡内基梅隆大学的研究团队提出了一种名为L2G(Language-to-Genome)的新型方法,通过跨模态迁移学习将现有的自然语言模型(Large Language Models, LLMs)重新定向用于解决基因组学任务。这一方法避免了从头开始预训练基因组学模型的高成本,同时在多个基准测试中表现优异,展示了跨领域模型迁移的潜力。

image

背景与研究挑战

基因组学模型的开发通常依赖于对大规模DNA序列数据的无监督预训练,以提取与基因组功能相关的复杂特征。这些模型在预测基因组元素、染色质状态以及基因调控功能等方面显示出了巨大潜力。然而,其高昂的训练成本和对计算资源的依赖成为了研究中的主要障碍。

例如,训练Nucleotide Transformer需要处理约1740亿个token,并在128个NVIDIA A100 GPU上连续训练28天,而较小的模型如DNABERT-2也需要在8个GTX 2080 Ti GPU上训练两周。这种资源密集型的开发过程极大地限制了基因组学基础模型的广泛应用。

与此同时,预训练语言模型的成功为跨模态迁移学习提供了启发。一些研究表明,预训练语言模型在蛋白质属性预测、偏微分方程求解等任务中也表现出色,这表明这些模型具备一定的通用推理能力。L2G正是基于这一观察,通过设计一套高效的迁移和适配机制,将自然语言模型应用于基因组学任务。

image

L2G框架的核心思想

L2G的核心在于利用跨模态迁移学习,将自然语言模型的强大推理能力迁移到基因组学领域,而无需在DNA序列数据上进行大规模预训练。

模型架构设计

L2G的架构由三部分组成:

  1. CNN嵌入器:负责将输入的DNA序列数据映射到嵌入空间,以适配自然语言模型的输入格式。
  2. Transformer编码器:直接复用预训练语言模型的编码器部分,用于从输入嵌入中提取特征。
  3. 线性预测器:将编码器的输出映射到目标任务的标签空间。

这种模块化设计使得L2G能够充分利用现有语言模型的能力,同时对基因组学任务的需求进行定制化调整。

三阶段训练流程

为了实现高效的跨模态迁移,L2G采用了以下三阶段训练流程:

  1. 神经架构搜索(NAS)
    通过自动化搜索优化CNN嵌入器的架构,选择最适合任务需求的卷积神经网络(如ResNet或UNet),并使用DASH算法调整卷积层的核大小和扩张率。

  2. 嵌入器预训练
    在这一阶段,通过最小化DNA序列嵌入与自然语言嵌入之间的分布差异,同时优化下游任务性能,显著减少两种模态之间的差距。研究使用最大均值差异(Maximum Mean Discrepancy, MMD)作为分布距离度量,并结合特定任务的损失函数进行优化。

  3. 微调
    在目标任务数据上对整个模型进行微调,包括嵌入器、Transformer编码器和线性预测器,以进一步提升任务性能。

image

实验结果与性能评估

研究团队在多个基因组学基准测试和实际任务中验证了L2G的有效性。结果表明,L2G不仅在计算和数据效率上具有显著优势,还在性能上超越了许多从头训练的基因组学基础模型。

  1. Nucleotide Transformer基准测试
    在18个任务中,L2G在10个任务中取得最佳成绩,并在其他6个任务中排名第二,尤其是在组蛋白标记和增强子预测任务中表现突出。

  2. Genomic Benchmarks数据集
    在8个分类任务中,L2G在5个任务中超过了所有其他模型的性能,在其余3个任务中排名第二。

  3. 增强子活性预测任务
    在使用DeepSTARR数据集进行的增强子活性预测中,L2G成功预测了果蝇S2细胞中的发育和管家增强子活性,表现优于专家设计的模型。此外,通过DeepLIFTShap和TF-MoDISco-lite等解释性算法,L2G还识别出了与增强子活性相关的转录因子基序(如AP-1、GATA和SREBP),并揭示了一些独特的基因调控机制。

这些实验结果表明,L2G在不依赖于大规模基因组学预训练的情况下,能够在多种基因组学任务中达到甚至超越领域特定模型的性能。

优势与局限性

优势

  1. 高效性:L2G显著降低了计算和数据资源需求,所有实验均可在单个A6000 GPU上在数小时内完成。
  2. 性能优越:在多个基因组学任务中,L2G的表现优于传统的基因组学基础模型,尤其是在增强子活性预测等复杂任务中。
  3. 跨模态迁移能力:通过跨模态迁移,L2G为自然语言模型在生物学领域的应用提供了新的可能性。

局限性

  1. 任务覆盖范围有限:当前的评估主要集中在调控元素预测等任务,尚未覆盖基因组学中更复杂的长距离依赖任务。
  2. 依赖微调:L2G目前依赖于对目标数据的微调,未来可以探索结合无监督DNA数据的继续预训练方法,以进一步提升性能。

结论与展望

L2G通过跨模态迁移学习,将预训练语言模型应用于基因组学任务,展示了高效性和卓越的性能。这一框架不仅减少了计算和数据的需求,还为基因组学研究开辟了新的可能性,引发了对传统预训练方法的反思。未来的研究可以进一步扩展L2G的应用范围,探索其在基因表达预测、染色质三维结构建模等复杂任务中的表现。此外,结合无监督文本和基因组数据的继续预训练方法,也有望进一步提升模型的性能和泛化能力。

参考

  • 参考文献:Cheng, W., Shen, J., Khodak, M., Ma, J., & Talwalkar, A. (2024). L2G: Repurposing Language Models for Genomics Tasks. bioRxiv. doi: https://doi.org/10.1101/2024.12.09.627422
  • 代码:https://github.com/wenduocheng/L2G
  • 数据集:研究中使用了多个公共数据集,包括Genomic Benchmark、Nucleotide Transformer benchmarks和DeepSTARR数据集,这些数据集均可在相应的网站上获取。

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/876049.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java基础学习(十)

Java基础学习(十):集合 目录Java基础学习(十):集合概念数据结构泛型CollectionListArrayListLinkedListSetHashSetLinkedHashSetTreeSet 本文为个人学习记录,内容学习自 黑马程序员概念数组长度固定,不够灵活,因此出现了集合集合 vs 数组长度:数组的长度固定,集合长…

Java基础学习(十一)

Java基础学习(十一):常见算法 目录Java基础学习(十一):常见算法查找算法排序算法 本文为个人学习记录,内容学习自 黑马程序员查找算法七大查找算法:基本查找(顺序查找)、二分查找(折半查找)、插值查找、斐波那契查找、分块查找、数表查找、哈希查找基本查找核心:从…

[2025.1.26 MySQL学习] 存储引擎

存储引擎 MySQL体系结构图

范围修改查询问题

范围修改查询问题 http://www.nfls.com.cn:10611/up/paper/国家集训队2024论文集.pdf P63 引入 这部分作者定义了半群和幺半群来描述一般的线段树可以做到的结构半群:结合律幺半群:结合律、有幺元交换半群:结合律、交换律形式化问题:(以下是通俗易懂的版本)给定交换半群 …

实现超图S3M数据在Ceisum中的解析、加载

使用超图提供的S3M加载模块。参考文档:S3M_JS使用方法 1. 将项目的Cesium库的Build目录及其内容放在S3M_JS目录中,与S3M_module同级。2. 调用该模块解析、加载S3M数据 const layer = new S3MTilesLayer({context: window.viewer.scene._context,url }) window.viewer.scene.p…

Beyond Compare(文件比较工具) v5.0.5.30614 多语便携版

Beyond Compare是一款功能强大的文件和文件夹比较工具,它能够快速准确地比较文件之间的差异,并提供了一系列强大的功能和工具来帮助用户进行文件和文件夹的同步、合并和备份。 软件功能 - 文件和文件夹比较:Beyond Compare能够快速准确地比较两个文件或文件夹之间的差异,包…

使用EarTrumpet代替windows默认的音量调节功能

前言 https://github.com/File-New-Project/EarTrumpet Windows 默认的音量调节功能挺弱的,要分别调节各个应用的音量得进入二级菜单,麻烦得很 有了这个功能就很方便了 截图安装 老规矩,Github、Microsoft Store、choco、scoop都行 我选的是 scoop 扩展:替换系统的音量控制…

JS-43 document对象_方法/创建元素

document创建元素:createElement(创建元素)createTextNode(创建元素文本)createAttribute(创建元素的属性) 1、document.createElement()document.createElement方法用来生成元素节点,并返回该节点var newDiv=document.createElement(div); 2、document.createTextNode()…

Keydd : 流量包匹配敏感信息的工具

免责声明 工具仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者及发布者不承担任何法律及连带责任。信息及工具收集于互联网,真实性及安全性自测!!!​ 项目介绍 一直在使用一些工具插件,来检测流量中的ak、sk、sfz、敏感信息,但是网上…

使用twinkle-tray快捷调整多个显示器的亮度

前言 自从安装了这个小工具,我再也没用过笔记本键盘上的快捷键了~ 介绍Twinkle Tray enables brightness control on external displays in Windows 10 & 11. Even though Windows is capable of adjusting the backlight on most monitors, it doesnt support external m…

ACM寒假集训第二次作业

二分查找 思路 运用二分查找,逐渐逼近所要查找的数字 代码 #include<iostream> using namespace std; int binary_search(int arr[],int l,int r,int x){int mid;while(l<r){mid=(l+r)>>1;if(arr[mid]>=x) r=mid;else l=mid+1;}return arr[l]; }; int main(…

【Java安全】保护Java应用程序:如何嗅探JVM的变量

在这篇文章中,我们回顾如何嗅探JVM的变量可能的方法。这篇文章的主要目的是解释如何保护你的应用程序。计划是进行下一步的攻击。从Dump中读取敏感数据。通过在外部依赖中注入恶意软件来窃取源代码。从Java Dump中窃取数据, 如果有人获得了对Java进程的访问权,他可能会读取敏…