❝
我们能教会计算机理解人类语言,同样也能让它们读懂DNA。
2023年10月31日,加利福尼亚大学伯克利分校的科学家们在《美国科学院院刊》(PNAS)上发表了一篇突破性研究,提出了一种基于无监督DNA语言模型的新方法,该方法在全基因组范围内预测基因变异效果上,超越了现有的保守性评分模型。
研究团队开发的“基因组预训练网络”(Genomic Pre-trained Network, GPN)模型,通过对植物基因组数据的无监督预训练,学习了基因变异的功能影响。GPN模型使用拟南芥及其相关物种的基因组序列进行训练,并利用1001基因组项目和GWAS数据库对其效果进行了评估。
GPN模型的预训练过程包括掩盖基因组序列中的15%位置,并预测这些位置上的碱基。这一训练方法使得模型能够有效学习并区分基因结构和DNA基序,且无需任何监督。此外,模型对重复元素的预测进行了加权处理,以减少这些区域对整体训练效果的影响。
GPN模型在基因区间的无监督聚类方面也表现出色,能够区分基因间区、内含子、编码区和非编码RNA等不同基因区间。通过UMAP算法对基因区间进行聚类,模型在编码区的分类准确率高达96%。
在预测基因变异效果方面,GPN模型同样表现出色,尤其在拟南芥中,其预测准确性超越了基于保守性评分的phyloP和phastCons。GPN模型的变异得分与群体中的变异频率相关,低得分变异在群体中较少见,这可能表明这些变异受到了净化选择。
GPN模型为基因组变异效果预测领域带来了新的希望,尤其适用于那些缺乏丰富功能基因组数据的物种。它不仅能够辅助GWAS进行更精细的定位和多基因风险评分,还能促进稀有变异的鉴定。随着AI技术的不断进步,GPN模型的应用前景将更加广阔。