PNAS | 中国农大汪海团队实现转录调控序列的人工智能设计

news/2024/10/5 13:37:46/文章来源:https://www.cnblogs.com/miyuanbiotech/p/18275647

近日,中国农业大学农学院汪海团队联合美国康奈尔大学、丹麦奥胡斯大学、北京大学现代农业研究院、坦桑尼亚农业科学院等单位在_PNAS在线发表了题为Modeling 0.6 million genes for the rational design of functional cis-regulatory variants and de novo design of cis-regulatory sequences_的研究论文,实现了转录调控序列的人工智能设计。

图片

尽管转录调控已被发现了半个多世纪,人类仍然无法像理解编码区DNA序列的密码子那样,理解转录调控区DNA序列中每个碱基的功能。如何给DNA序列加上“标点符号”以定义motif?Motif的数量、类别、方向、组合、顺序以何种数学函数映射到基因的表达量?这些问题(即转录调控区的语法)至今未能总结为普适而简约的定律。这一基础理论问题的滞后限制了三个应用研究领域的发展:(1)如何打破连锁不平衡的影响,从表达调控区的自然变异(包括常见变异以及关联分析无能为力的低频变异和罕见变异)中高通量发掘功能变异,为杂交育种提供原料?(2)转录调控区的基因编辑往往采用“大规模突变+表型筛选”的方式,具有一定的盲目性且费时费力。如何在转录调控区编辑之前进行理性设计?(3)DNA的变异空间极其庞大,以一段140bp的DNA序列为例,其可能性为4的140次方,远超可观测宇宙中所有原子的数量,因此地球上所有曾经出现过的生命只探索过DNA无限变异空间的很小一部分。如何高效探索DNA序列的无限变异空间,从头(de novo)设计有生物学功能的转录调控区DNA序列,为合成生物学提供无穷无尽的可用元件?

为了回答上述问题,并充分地涵盖植物转录调控区DNA序列的变异空间,该研究利用17个植物物种(拟南芥、毛果杨、大豆、甜菜、蒺藜苜蓿、黄瓜、葡萄、番茄、土豆、谷子、狗尾草、玉米、高粱、二穗短柄草、水稻、小立碗藓、莱茵衣藻)的60万个基因以及6256套转录组数据,开发了一个名为PhytoExpr的深度学习模型。该模型以近端转录调控区DNA序列(5kb启动子和5kb终止子)为输入,预测基因的中位数表达量以及该序列来自哪个物种。为了无偏倚地评估模型的预测准确度,以基因家族为单位划分训练集和测试集,确保模型只在它从未见过的基因家族上进行测试。研究者构建了两种模型结构:CNN+stacking和transformer,并训练随机森林模型对上述两种深度学习模型结构的超参数进行了优化,然后比较它们在四种不同任务(图1c)中的预测精度。结果显示,采用transformer和多任务学习(multi-task learning)架构时,模型在mRNA丰度预测(图1d)和序列物种来源预测(图1e)上都有着更高的准确度。

图片

图1. PhytoExpr模型在测试集上的准确度

为了评估PhytoExpr模型对新物种的泛化能力,研究者使用17个物种中的16个物种训练模型,在模型没有见过的新物种的新基因家族上测试其准确度。结果显示,除莱茵衣藻外,模型可以对从未见过的物种中的从未见过的基因家族作出可靠的预测(图2)。这表明PhytoExpr可以有效地拓展到与模型训练集包含的物种有相近进化关系的新物种中。而莱茵衣藻与其他植物分化了约10亿年,其转录调控的语法可能已经大相径庭,因此没有见过莱茵衣藻的深度学习模型无法对该物种触类旁通。

图片

图2. PhytoExpr的跨物种泛化能力

作者进一步使用PhytoExpr评估了玉米每个基因的转录调控区每个碱基对基因表达的影响(图3a、b),并将碱基重要性得分与碱基保守性、转录因子结合位点进行了比较。结果显示,高保守碱基(图3d)、与转录因子结合的碱基(图3f)都显著富集在PhytoExpr预测的高重要性核苷酸中。这表明虽然PhytoExpr没有使用功能注释数据(例如Conserved Non-coding Sequence、ChIP-Seq等)进行训练,PhytoExpr仍能够识别出调控区序列中的功能元件。

图片

图3. 利用PhytoExpr实现单核苷酸分辨率的定量功能注释

接下来作者使用PhytoExpr解决前文中提到的三个应用问题。首先,利用PhytoExpr模型系统评估了1730万个来自玉米HAPMAP3的SNP对基因表达的影响(图4a),发现模型预测的大效应SNP中显著富集罕见变异(MAF < 0.01),说明这些变异更可能受到负选择(图4b),同时SNP效应评分与SNP到TSS或TTS的距离有很强的相关性(图4c)。因此研究者猜测PhytoExpr预测的大效应SNP可能与自然群体中基因表达水平的变异存在很强的相关性。利用以前报道的基于282个玉米自交系的7个不同组织转录组eQTL数据,依据_cis_-eQTL曼哈顿图中的关联强度对SNP进行排序(图4d),发现_cis_-eQTL中排序靠前的SNP在模型预测的大效应SNP中显著富集(图4e),证明PhytoExpr在转录调控区功能变异发掘中的有效性

图片

图4. 利用PhytoExpr定量分析自然变异对基因表达的影响

第二,作者开发了两种算法利用PhytoExpr改进自然启动子。第一种策略称为基于重要性分数的半暴力算法(图5a),利用该方法对四个玉米调控区序列进行设计,并得到了预期的表达量(图5b、c)。第二种策略称为虚拟进化,即在遗传算法中使用PhytoExpr作为选择算子(图5d)。以植物启动子作为初始序列,通过对特定区域的多轮虚拟进化(图5g, 5h),该策略成功提高了目标启动子的转录强度(图5i)。

图片

图5. 转录调控区DNA序列的理性设计

第三,作者利用虚拟进化技术实现了转录调控区DNA序列的从头设计。随机序列在计算机中经过多代虚拟进化,产生了适用于拟南芥的增强子(图5e)和适用于玉米的增强子(图6a),这些增强子虽然和自然序列没有相似性,但是可以分别在拟南芥(图5f)和玉米(图6e)中启动报告基因的表达。因此,将PhytoExpr模型嵌入遗传算法,可以实现DNA序列在计算机中的进化,高效地探索DNA序列的无限变异空间,为植物合成生物学提供无限的元件

图片

图6. 通过虚拟进化产生玉米增强子

中国农业大学博士研究生李天祎许辉和博士后滕守振为共同第一作者,汪海教授为通讯作者。该研究得到了“农作物基因资源阐析”国际大科学计划(G2P计划)、国家自然科学基金、中央高校基本科研业务费、中国农业大学2115人才培育工程的经费支持。美国康奈尔大学Edward Buckler教授、丹麦奥胡斯大学Guillaume Ramstein助理教授、北京大学现代农业研究院宋宝兴研究员、坦桑尼亚农业科学院Revocatus Bahitwa农业研究专员对该研究工作提供了宝贵建议。

论文链接:

www.pnas.org/doi/10.1073/pnas.2319811121

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/733694.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[C++ Primer] 关联容器

C++关联容器相关操作关联容器标准库提供了8个关联容器。类型map和multimap定义在头文件map中;set和multiset定义在头文件set中;无序容器则定义在头文件unordered_map和unordered_set中。pair标准库类型,定义在头文件utility中。关联容器额外的类型别名:关联容器insert操作:…

Kali 关闭自动锁屏功能

Kali 关闭自动锁屏功能 1、点击 [开始] -> [设置] -> [电源管理器]2、选择 [安全性],将 [自动锁定会话] 选为 [从不],将 [当系统休眠时锁定屏幕] 取消勾选,点击 [关闭]

键盘记录大师:用pynput轻松捕获每一个按键,包括组合键和功能键

哈喽,大家好,我是木头左!揭秘键盘输入的监控神器 - pynput库 在数字时代,键盘是与计算机交流的主要工具。无论是编写代码、撰写文档还是进行日常通讯,键盘的每一次敲击都承载着信息。而在某些场景下,可能需要记录这些信息,比如开发一个学习打字的软件、监控儿童的上网行…

word通用模板说明

个人偷懒,标题、表、图、公式按章节自动编号,字体与间距按照武汉理工大学硕士论文设置,方便平时报告用,模板在个人文件夹中https://files.cnblogs.com/files/blogs/806514/%E9%80%9A%E7%94%A8word%E6%A8%A1%E6%9D%BF.zip?t=1719659030&download=true 标题自动编号 点击…

HydroOJ 从入门到入土(20)已通过的题目显示 AC 代码

定期的代码汇总分析和整理是必要的。个人面板里,通过的题目,直接链接到对应的AC记录。用处就是可以按人汇总,便于学生自己整理,以及老师分析学生。 权限:看不了别人代码的人,依然看不了别人代码。 效果修改后端 进入 user.ts 文件 435 行左右: cd /usr/local/share/.con…

模拟集成电路设计系列博客——8.2.2 LC振荡器

8.2.2 LC振荡器 LC振荡器是调谐振荡器的一个例子。环形振荡器使用有源放大器级来提供环路不稳定性所需要的180相移,调谐振荡器向反馈环路中插入调谐(谐振)电路来提供相移。在LC振荡器的例子中,谐振是由一个并联的LC电路实现的。 一个简单的LC振荡器如下图(a)所示,其小信号…

安装编译ffmpeg

原文链接 安装MSYS2msys2是一款跨平台编译套件,它模拟linux编译环境,支持整合mingw32和mingw64,能很方便的在windows上对一些开源的linux工程进行编译运行。类似的跨平台编译套件有:msys,cygwin,mingw 优势: 相对于 cygwin 和 msys 等环境,它支持 pacman 包管理器,这…

LLM并行训练4-megascale论文学习

字节megascale论文学习笔记算法优化 并行注意力机制 \[串行版本: y = x + MLP(LayerNorm(x + Attention(LayerNorm(x)))) \]\[并行版本: y = x + MLP(LayerNorm(x)) + Attention(LayerNorm(x)))) \]乍一看确实不是等价的, attention那块的后置mlp去哪了..这个其实没有理论证明,…

【Linux系列】centos搭建本地源

开始备份:查看光盘挂载路径:❗转义符关闭防火墙:测试一下:🎉Congratulations on successfully switching your local source!

1.Java基础

路线图:https://www.bilibili.com/read/cv9965357/JAVA入门 java SE/EE/ME jdk: java development kit java开发者工具包(安装路径不要包含中文与空格) 通过oracle官网下载:http://www.oracle.com 验证JDK安装成功:bin下的java.exe执行工具,javac.exe编译工具是否可用,…