稀疏基因组学:大规模基因组分析的新范式

news/2025/1/24 10:17:27/文章来源:https://www.cnblogs.com/shiyanhe/p/18685635

随着基因测序技术的飞速发展,我们面临着一个巨大的挑战:如何高效地处理和分析海量的基因组数据。

2025年1月21日,发表在《Nature Communications》上的一篇论文提出了一个名为“稀疏化基因组学”(Sparsified Genomics)的新概念,通过系统性地排除基因组序列中的大量碱基,显著加速了基因组分析的速度,同时保持了与处理完整序列相当的准确性。

image

稀疏基因组学提出的背景

在生物医学研究中,寻找相似的基因组序列是一项基础且关键的步骤。然而,现有的计算方法在处理呈指数级增长的基因组测序数据时显得力不从心。基因组数据的规模庞大,从个体基因组中提取的短序列(reads)数量众多,且长度远小于完整基因组序列。例如,Illumina、PacBio和Oxford Nanopore Technologies(ONT)等主流测序系统每样本可产生数千万至数十亿条reads,且数据产出量还在不断增加。

基于此,文章提出了稀疏基因组学的概念,其核心思路是通过排除基因组序列中的大量碱基,生成更短、更稀疏的序列,从而减少计算负载和内存占用。这种方法不仅能够加速基因组分析,还能在保持高准确性的前提下,显著减少存储空间的需求。

image

核心方法

研究者们开发了一个名为Genome-on-Diet的框架,它是首个高度并行、内存节省且准确的稀疏基因组序列处理框架。

Genome-on-Diet基于四个关键思想:

  1. 使用重复模式序列决定基因组序列中哪些碱基应被排除,哪些应被包含。模式序列是用户自定义的、可配置的最短重复子串,通过1和0分别代表包含和排除的碱基。
  2. 推断查询序列中模式应应用的位置,以正确匹配查询序列和目标序列中包含的碱基。
  3. 利用现代微处理器中的单指令多数据(SIMD)指令,实现索引和种子提取的高度并行和优化。
  4. 引入四种关键优化策略,以实现高并行性、效率和准确性。

image

应用与验证

研究者们对Genome-on-Diet在三种主要的基因组分析任务——读段映射(read mapping)、包含搜索(containment search)和分类分析(taxonomic profiling)中的表现进行了评估,使用了Illumina、HiFi和ONT三种主流测序数据类型,以及不同的基因组和大型数据库。

读段映射

Genome-on-Diet在读段映射任务中表现出色。与现有的先进读段映射工具minimap2相比,Genome-on-Diet在处理Illumina、HiFi和ONT reads时分别加速了2.57-5.38倍、1.13-2.78倍和3.52-6.28倍,同时提供了相当的内存占用、更小的索引大小,并且能够检测到更多的变异。例如,在使用模式‘10’时,Genome-on-Diet比非稀疏读段映射检测到的正确变异数量增加了4%,漏检变异和读段映射执行时间分别减少了25.9%和28.4%。

包含搜索

在包含搜索任务中,Genome-on-Diet通过稀疏化基因组序列,使得大规模基因组和大型数据库的搜索速度提高了72.7-75.88倍(当索引预处理时为1.62-1.9倍),并且比非稀疏基因组序列搜索更节省存储空间,达到了723.3倍的存储效率提升。这表明稀疏基因组学在处理大规模基因组数据时具有显著的优势。

微生物组分类分析

在分类分析任务中,Genome-on-Diet能够提供更快、更节省存储空间的分类分析。与现有的先进工具Metalign相比,Genome-on-Diet在分类分析的速度上提高了54.15-61.88倍(当索引预处理时为1.58-1.71倍),并且在存储效率上提高了720倍。这使得Genome-on-Diet在处理宏基因组样本时具有更高的效率和准确性。

image

挑战

尽管稀疏化基因组学在加速基因组分析方面表现出色,但它也面临一些挑战。例如,稀疏化基因组学可能会增加误报率,即错误地将不相似的序列标记为相似。这主要是由于稀疏化基因组学允许在种子匹配时容忍更多的差异。然而,通过引入质量过滤机制,可以有效减少误报率。

结论与展望

稀疏基因组学作为一种新兴的技术,通过系统地排除基因组序列中的大量碱基,实现了对稀疏化序列的快速、高效处理,同时保持了与非稀疏序列相当的准确性。Genome-on-Diet框架的提出,为基因组分析提供了一种全新的解决方案,它在读段映射、包含搜索和分类分析等任务中均展现出了显著的性能提升和存储效率优势。这一技术的发展有望推动大规模基因组分析的进一步发展,为生物医学研究提供更强大的计算支持。

我们也应该注意到,这一技术仍处于发展阶段。未来的研究可以进一步优化稀疏化模式的选择,提高算法的准确性和鲁棒性,以及探索稀疏基因组学在更多生物信息学任务中的应用。我们期待稀疏基因组学能够在未来的基因组研究中发挥更大的作用,为揭示生命的奥秘提供更有力的工具。

参考文献

Alser, M., Eudine, J., & Mutlu, O. (2025). Taming large-scale genomic analyses via sparsified genomics. Nature Communications, 16, 876. https://doi.org/10.1038/s41467-024-55762-1

image

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/874624.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【译】我们最喜欢的2024年的 Visual Studio 新功能

去年,Visual Studio 团队发布了许多新的面向开发人员的改进和 AI 集成,其中许多直接来自您在开发者社区的反馈。在这篇文章中,我们将重点介绍2024年团队最喜欢的功能,这些功能可以提高生产力,简化工作流程,并增强您的编码体验。让我们开始吧! 图像悬停预览:立即看到您的…

如何修改PHP网站的名称,以确保名称准确且符合品牌形象?

修改PHP网站的名称是一个重要的任务,它不仅关系到网站的准确性和专业性,还影响到用户体验和品牌形象。以下是详细的步骤和建议:备份现有文件:在进行任何修改之前,务必备份网站的原始文件和数据库,以防止意外情况发生。 确定修改位置:通常,网站名称位于模板文件中,如he…

【分享】晶尊微MC802:打造炫酷触控发光方案,轻松点亮创意未来

MC802 带 2 个自校正容性触摸按键功能和 4 个 I/O 口的单片机,是以 EPROM 作为记忆体的 8 位微控制器,专为多 IO 产品的应用而设计。最近,科技圈出现这样一个好东西。它不仅能随时为手机、耳机等充电设备提供应急充电,还能瞬间变身露营灯、氛围灯、台灯,满足不同场景下的需…

二-2、代码生成-swagger

地址 http://192.168.0.115:39999/swagger-ui.html?docExpansion=none/ 位置步骤配置数据库数据Cb-SYSMICROSERVICE(微服务)Cb-SYSRELATIONTABLE(表)生成代码传参 { "author": "jmc",--作者 "lngmsid": 207,--SYSMICROSERVICE表ID "ln…

为什么PHP无法正常修改网站?

PHP无法正常修改网站可能有多种原因,以下是一些常见的问题和解决方法:文件权限问题:确保PHP脚本有足够的权限来修改网站文件。检查文件和文件夹的权限设置,确保PHP进程有权读取、写入和执行相关文件。路径问题:确认PHP脚本中使用的文件路径是正确的。如果路径错误,PHP将无…

如何修改后台网站底部信息?

要修改后台网站底部信息,通常可以按照以下步骤进行:登录到后台管理系统:使用管理员账号和密码登录到网站的后台管理系统。找到页面编辑功能:在后台管理系统中,找到可以编辑页面内容的功能或模块。这可能是一个可视化编辑器、HTML编辑器或其他类似的工具。定位到底部区域:…

如何修改PHP网站的页面内容?

要修改PHP网站的页面内容,通常可以按照以下步骤进行:确定要修改的页面:首先,明确您想要修改的具体页面。这可能是首页、产品页面、文章页面等。找到页面文件:根据页面的类型和位置,找到对应的PHP文件。这些文件通常位于网站的根目录或特定的文件夹中。备份文件:在进行任…

Vite + Vue/React:用 import.meta 解决图片路径问题

在 Vite 中开发 Vue 和 React 项目时,import.meta.url 是一个非常有用的工具,它可以帮助我们动态获取模块的路径,进而处理静态资源(如图片)的加载路径。本文将结合实际例子,展示如何使用 import.meta.url 动态切换图片。 一. import.meta.url 是什么? import.meta 是 EC…

天通ERP S系列如何设置根据不同字段区分商品显示汇总,且在两个表中显示

展示效果:操作方式: 1、任我行打印管理器,点击右上角添加公式按钮,添加一个字段名称为空、字符类型为字符数据,且表达内容为空的公式字段保存(英文输入法下两个’’)2、在表头的最后添加一列,绑定刚才添加的空的公式字段,并绑定新增的字段为分单总计 且该字段取消显示边框 3、…

kettle从入门到精通 第九十一课 ETL之kettle http接口下载文件流

1、场景需求 群里一位老朋友想通过http接口下载文件流,然后将文件流保存为文件存储到本地,如下图所示: 2、做过应用程序研发,对http知识有所了解的,结合对方发的postman截图,一眼就知道了接口的真实面目。接口返回的content-type是application/octet-stream且有文件下载说…

搭建latex服务

1.领取免费服务器,推荐免费服务器(SanFengYun)见下图。2.安装宝塔面板,配置内网为127.0.0.1,访问外网地址。 3.可以在宝塔面板一键部署网站,输入自己的域名即可。 4.关键:安装docker,安装yum,设置github可以访问。 5.更换docker镜像,自带镜像无法访问 6.按照overleaf…

Cisco ASAv 9.22.1.3 - 思科自适应安全虚拟设备 (ASAv)

Cisco ASAv 9.22.1.3 - 思科自适应安全虚拟设备 (ASAv)Cisco ASAv 9.22.1.3 - 思科自适应安全虚拟设备 (ASAv) Cisco Adaptive Security Virtual Appliance (ASAv) 请访问原文链接:https://sysin.org/blog/cisco-asav/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysi…