PNAS | 基因组预训练网络模型精准预测 DNA 突变

news/2024/12/22 11:27:43/文章来源:https://www.cnblogs.com/miyuanbiotech/p/18402915

我们能教会计算机理解人类语言,同样也能让它们读懂DNA。

2023年10月31日,加利福尼亚大学伯克利分校的科学家们在《美国科学院院刊》(PNAS)上发表了一篇突破性研究,提出了一种基于无监督DNA语言模型的新方法,该方法在全基因组范围内预测基因变异效果上,超越了现有的保守性评分模型。

图片

研究团队开发的“基因组预训练网络”(Genomic Pre-trained Network, GPN)模型,通过对植物基因组数据的无监督预训练,学习了基因变异的功能影响。GPN模型使用拟南芥及其相关物种的基因组序列进行训练,并利用1001基因组项目和GWAS数据库对其效果进行了评估。

GPN模型的预训练过程包括掩盖基因组序列中的15%位置,并预测这些位置上的碱基。这一训练方法使得模型能够有效学习并区分基因结构和DNA基序,且无需任何监督。此外,模型对重复元素的预测进行了加权处理,以减少这些区域对整体训练效果的影响。

图片

GPN模型在基因区间的无监督聚类方面也表现出色,能够区分基因间区、内含子、编码区和非编码RNA等不同基因区间。通过UMAP算法对基因区间进行聚类,模型在编码区的分类准确率高达96%。

图片

在预测基因变异效果方面,GPN模型同样表现出色,尤其在拟南芥中,其预测准确性超越了基于保守性评分的phyloP和phastCons。GPN模型的变异得分与群体中的变异频率相关,低得分变异在群体中较少见,这可能表明这些变异受到了净化选择。

图片

GPN模型为基因组变异效果预测领域带来了新的希望,尤其适用于那些缺乏丰富功能基因组数据的物种。它不仅能够辅助GWAS进行更精细的定位和多基因风险评分,还能促进稀有变异的鉴定。随着AI技术的不断进步,GPN模型的应用前景将更加广阔。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/794038.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git Extensions:一个.NET开源的 Git 图形用户界面(GUI)工具

前言 今天大姚给大家分享一个.NET开源、免费的用于管理 Git 存储库的独立图形用户界面(GUI)工具,它还与 Windows 资源管理器和 Microsoft Visual Studio (2015/2017/2019/2022) 集成:Git Extensions。Git新手指南:从基础到实践的全方位教程功能介绍图形用户界面:提供一个…

认识果树基因组的遗传改良与育种

果树基因组与遗传改良 2023年,南京农业大学吴俊教授团队发表在Plant Physiology的题为 “Genomic insights into domestication and genetic improvement of fruit crops”的长篇综述,系统总结了果树基因组学与遗传改良研究领域的最新进展,并展望了未来发展趋势。原文链接:…

关于mybatis

1、junit方法 @Test @Before @After 2、数据类型与别名 3、参数定义方法:#{name} 直接表示对象的属性名,只有一个参数的时候 #{} 内的名称随便写。%${name}% 模糊查询拼接字符串<select id="findByUsernameLike" parameterType="string" resultType…

【题解】CPS-S模拟2

目录PreT1.不相邻集合题目描述部分分40pts10pts正解思路代码T2.线段树题目描述部分分20pts正解思路代码T3.部分分40pts正解思路代码T4.部分分10pts正解思路代码And Pre赛时没有第一时间找到签到题,遂四处游走,后来决定先打T1,约1h时切了,然后1h打后3题暴力,后面推了推T4一…

SpringBoot集成knife4j接口文档

0. 导入maven依赖 <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId> </dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lom…

Cisco Catalyst 9000 Series Switches, IOS XE Release 17.15.1 ED

Cisco Catalyst 9000 Series Switches, IOS XE Release 17.15.1 EDCisco Catalyst 9000 Series Switches, IOS XE Release 17.15.1 ED 思科 Catalyst 9000 交换产品系列 IOS XE 系统软件 请访问原文链接:https://sysin.org/blog/cisco-catalyst-9000/,查看最新版。原创作品,…

dbeaver导出表结构和数据,无需二次操作

1. 对某个数据库右键(示例demo)→工具→转储数据库 2.接着按下面进行操作:3.创建跟上面同名字的数据库: 右键数据库名字-》工具-》执行脚本 导入数据,执行sql文件时报错unknown command \\. 在额外的命令参数中添加下面命令即可: --default-character-set=utf8

Day01 MarkDown语法学习

MarkDown语法学习 标题 #+空格 一级标题 ##+空格 二级标题字体 粗体 **粗体** 斜体 *斜体* 斜体加粗 ***斜体加粗*** 删除线 ~~删除~~ 引用引用 > 引用分割线---或者***图片![截图2](https://cdn.luogu.com.cn/upload/usericon/1.png) 超链接 我的博客 [我的博客](https://w…

Graph Edge Partitioning via Neighborhood Heuristic

目录概符号说明Vertex vs Edge partitioningNE (Neighbor Expansion)代码Zhang C., Wei F., Liu Q., Tang Z. G. and Li Z. Graph edge partitioning via neighborhood heuristic. KDD, 2017.概 本文提出了一种图分割方法 (edge partitioning), 保证只有少量的重复结点. 符号说…

P11020 「LAOI-6」Radiation 题解

一道简单的构造题,其实不用想的十分复杂的说。 首先,最多发射的宇宙射线 \(sum\) 也最多为 \(sum_{max}=min(m,n)\) 也就是说,无论如何摆放石子,也只能达到这个数量。那么我们的目的便变成了如何让石子变成这一个形状。如上图,在一个 \(3\times6\) 的矩阵中,其实只要三颗…

适合科研的团队协作工具:8款实用评测

本文介绍的8款工具如下:1.Worktile;2.PingCode;3.蓝湖;4.智方科研管理系统;5.九云办公;6.和鲸ModelWhale;7.有道云协作;8.Maxhub。在科研项目中,团队协作软件的选择总是让人头疼。市面上有太多工具,不知道哪款更适合自己?每个软件都宣传自己效率高、功能全,但真正好…

精选10款团队协作工具,让合作更高效

本文将介绍10款团队协作工具:1.Worktile;2.PingCode;3.哨子办公;4.智办事;5.曲奇云盘;6.小钉贴;7.协同易;8.BoardMix;9.CORNERSTONE;10.ORGOS。团队合作中总是有很多信息来回传递,却没有一个统一的平台来管理任务和沟通,这不仅让工作效率大打折扣,还可能让团队成员…