PNAS | 基因组预训练网络模型精准预测 DNA 突变-编程知识

PNAS | 基因组预训练网络模型精准预测 DNA 突变

❝

我们能教会计算机理解人类语言，同样也能让它们读懂DNA。

2023年10月31日，加利福尼亚大学伯克利分校的科学家们在《美国科学院院刊》（PNAS）上发表了一篇突破性研究，提出了一种基于无监督DNA语言模型的新方法，该方法在全基因组范围内预测基因变异效果上，超越了现有的保守性评分模型。

研究团队开发的“基因组预训练网络”（Genomic Pre-trained Network, GPN）模型，通过对植物基因组数据的无监督预训练，学习了基因变异的功能影响。GPN模型使用拟南芥及其相关物种的基因组序列进行训练，并利用1001基因组项目和GWAS数据库对其效果进行了评估。

GPN模型的预训练过程包括掩盖基因组序列中的15%位置，并预测这些位置上的碱基。这一训练方法使得模型能够有效学习并区分基因结构和DNA基序，且无需任何监督。此外，模型对重复元素的预测进行了加权处理，以减少这些区域对整体训练效果的影响。

GPN模型在基因区间的无监督聚类方面也表现出色，能够区分基因间区、内含子、编码区和非编码RNA等不同基因区间。通过UMAP算法对基因区间进行聚类，模型在编码区的分类准确率高达96%。

在预测基因变异效果方面，GPN模型同样表现出色，尤其在拟南芥中，其预测准确性超越了基于保守性评分的phyloP和phastCons。GPN模型的变异得分与群体中的变异频率相关，低得分变异在群体中较少见，这可能表明这些变异受到了净化选择。

GPN模型为基因组变异效果预测领域带来了新的希望，尤其适用于那些缺乏丰富功能基因组数据的物种。它不仅能够辅助GWAS进行更精细的定位和多基因风险评分，还能促进稀有变异的鉴定。随着AI技术的不断进步，GPN模型的应用前景将更加广阔。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/794038.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！