GPB | RegVar:基于深度神经网络的非编码区突变功能预测新方法

fcdfad754a4ae5d87bc97338abe7c82a.png

Genomics, Proteomics & Bioinformatics (GPB)发表了由军事医学研究院辐射医学研究所张成岗研究员周钢桥研究员卢一鸣副研究员团队完成的题为“RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants”的方法文章。我们的“要文译荐”栏目很高兴邀请到文章的通讯作者张成岗研究员为大家介绍RegVar方法的建立与应用。

要点介绍

研究问题:

基于全基因组测序的研究工作,研究人员已在人类基因组上发现了超过8000万个基因突变位点,在单个个体基因组上也存在400~500万个突变位点。如何对这些海量突变位点在个体疾病与性状产生过程中的作用进行系统研究,仍然是基因组学与遗传学领域的一大难题。此外,由于基因组上绝大部分突变位于非编码区,可通过影响基因转录和翻译过程中的不同生物事件来发挥作用,对其进行准确的功能注释和靶基因鉴定仍是一重大挑战。

研究方法:

利用来自基因型-组织表达(genotype-tissue expression, GTEx)研究项目的组织类型特异性表达数量性状基因座(expression quantitative trait loci, eQTL)数据,采用深度神经网络(deep neural network, DNN)的计算框架,对发挥调控功能的SNP位点与其靶基因位点的多种分子特征进行整合建模分析,包括其序列特征、表观组学特征和进化保守性特征等,在17种人体组织中构建了组织特异性的非编码区调控型突变预测模型,并在多种条件下对模型的预测性能进行了充分评估。

主要结果:

我们建立了一种基于DNN的计算框架RegVar,它可以准确预测非编码区调控型突变的组织特异性调控功能,并对其靶基因进行高准确性鉴定。通过学习多种人类组织中“遗传位点-基因表达”关联的分子特征,RegVar在多种情景下表现出对非编码区调控型突变功能预测的优异性能。我们期待RegVar能够帮助深入理解人类基因组的遗传结构,并有助于揭示复杂性状和疾病背后新的分子机制。

背景和研究对象

来自全基因组关联分析(genome-wide association studies, GWAS)的研究结果显示,大量变异位点与疾病表型之间存在显著关联,其中绝大部分位于基因组的非编码区。非编码区的变异位点不改变编码蛋白的序列和功能,主要通过调控基因的表达来发挥效应。如何对这些具有调控功能的变异位点进行鉴定和注释是医学遗传学研究中的一大挑战。

以往针对非编码区突变效应的研究大多关注于致病型突变的注释,对这些方法的评测结果显示其并不适用于调控型突变的鉴定。与致病型突变相比,调控型突变的突变效应更为微弱,使得其鉴定更加困难。调控元件与其调控的靶基因之间通常具有较远的基因组距离,如何在远距离上将调控元件上的变异位点与靶基因联系起来,是本领域的研究难点。此外,调控型突变的作用往往具有组织或细胞类型特异性,对不同组织类型中的变异位点进行特异性注释,也具有十分重要的生物学意义。

方法建立

RegVar采用DNN算法框架,利用来自GTEx研究项目的eQTL数据进行建模分析,结合了突变位点及其所调控的靶基因的序列、表观组学和进化保守性等特征,在17种人体组织中构建了组织特异性的非编码区调控型突变预测模型。为了对方法的稳健性与有效性进行充分评估,构建了多种情景下的阴性数据集对RegVar的预测性能进行测试,包括:(1)随机突变组,即选择基因组上随机阴性SNP位点与靶基因构成阴性数据集;(2)镜像突变组,即选择基因组上与阳性突变位点关于靶基因镜像对称位置的阴性SNP位点与靶基因构成阴性数据集;(3)邻近突变组,即选择基因组上阳性突变位点附近的阴性SNP位点与靶基因构成阴性数据集;(4)随机基因组,即选择基因组上阳性突变位点1Mb之内的随机基因与阳性突变构成阴性数据集。对这些条件下的阴性数据集进行预测评估,发现RegVar均表现出良好的预测性能,说明RegVar具有较好的稳健性与有效性(图1)。与以往方法相比,RegVar也表现出更高的预测准确性。

e36a26566c5a420ae81b1ce65227e75f.jpeg

图1  在不同条件下RegVar与已有方法在肝脏eQTL数据上的预测表现

RegVar应用性分析

在可应用性方面,采用RegVar对22号常染色体上所有SNP位点进行了调控概率的注释,结果显示其中存在大量具有高调控功能概率的变异位点,可能影响到特定靶基因的表达(图2)。在真实的eQTL研究中,这些位点并不能被成功检测出来,可能是由于这些位点的调控效应十分微弱而导致的,此外也可能受到样本量与统计效力等限制因素的影响。

be8c38c52ebec6c15c97e624f4c824f3.jpeg

图2  RegVar对22号常染色体上SNP位点进行调控概率预测

随后,使用RegVar模型对全基因组中随机选取的变异位点进行了组织特异性预测分析,鉴定到跨组织与组织特异性调控型突变位点(图3)。对其进行表观特征注释,结果显示,跨组织调控型突变位点往往带有多个组织的启动子表观修饰,而组织特异性调控型突变位点则大多带有组织特异性的增强子表观修饰(图3)。

d3427dfb5ede48505d9ccb4830ada8e0.jpeg

图3  RegVar在全基因组上鉴定跨组织与组织特异性调控型突变位点

为了进一步探究RegVar模型的可拓展性,利用人类基因突变数据库(human gene mutation database, HGMD)中的致病型突变位点信息,利用相似的研究框架构建了致病型突变预测模型。与已发表的同类方法相比,RegVar可达到同等程度的预测性能。RegVar同时提供了可在线访问的网页应用(https://regvar.omic.tech/)和可下载的模型程序包供相关领域的研究者使用和参考。

222c0378970fb154b13c9cbe2bf33ff9.png

扫描二维码获取链接

总结和讨论

非编码区突变能够通过多种复杂机制在许多疾病和复杂性状产生过程中发挥重要作用,然而如何将非编码区突变,尤其是长距离突变,与其靶基因联系起来一直是一个巨大挑战。目前已经有研究者开发了许多方法对非编码区突变进行功能注释,尽管这些方法在基本假设和具体算法框架上各不相同,但它们主要关注于致病型突变作用。因此,大量具有微弱调节作用的突变将被忽视。我们展示了RegVar在不同情景下对调控型突变进行功能预测的优异性能,RegVar有望应用于候选突变位点的筛选、靶基因的鉴定等研究中,为揭示基因组中复杂的调控关系以及阐明复杂性状的分子成因提供帮助。

审校人:

GPB青年编委侯娅丽

文章编译来源:

Lu H, Ma L, Quan C, Li L, Lu Y, Zhou G, Zhang C. RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants. Genomics Proteomics Bioinformatics 2023;21(2):385-395. 

英文全文详见:

https://www.sciencedirect.com/science/article/pii/S1672022921002564

作者资助信息:

军事科学院军事医学研究院辐射医学研究所张成岗研究员周钢桥研究员卢一鸣副研究员为论文的共同通讯作者,该所的路浩助理研究员为论文的第一作者,马露雨权诚李磊为文章共同作者。该研究得到了国家自然科学基金、北京市科技新星计划的资助。

GPB论文:

RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants

长按并识别二维码,阅读原文

0d2d8d1f9432680bffc382f92772c06e.png

97edc70b40fe26c9e67d6f12e55a8056.png

     相关推荐     

GPB | CARMEN:基因表达调控相关非编码变异的精准功能预测算法

GPB | NetGO 3.0: 蛋白语言大模型有效提升蛋白质功能预测性能

GPB | GREPore-seq:通过长片段PCR和纳米孔测序高效检测基因编辑后突变的实验流程

   About GPB   

Genomics, Proteomics & Bioinformatics(基因组蛋白质组与生物信息学报,简称GPB)于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由牛津大学出版社金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed/MEDLINE、Scopus等数据库收录。2023年公布的官方数据显示,CiteScore为11.7;2年和5年Impact Factor分别为9.5和10.1,分别排名WoS遗传学领域12/171和13/171;2022 JCI为2.08,排名WoS遗传学领域10/189。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划“资助(2019–2023)。

高颜值免费 SCI 在线绘图(点击图片直达)

7aa93e641da47ad070832f2522b103c0.png

最全植物基因组数据库IMP (点击图片直达)

039899faa0c742f0b5067bbbc6262c9a.png

往期精品(点击图片直达文字对应教程)

ac7c826828c2457cc76ab0d594ca6213.jpeg

237ef6b61dee6dbbf028e03f008d6b6d.jpeg

d7087f423a71c7998ef382ca30756a3a.jpeg

6b303feb01902cf9b29c65590f3b35d3.jpeg

c0f9bffe5e87cd1747cbd79b49917a90.jpeg

57870c4f4f44d4493f607541213ff775.jpeg

a4ccffbbfbf477519b2ae4e55f2acb29.jpeg

0ad3737513b0516bcb3bf9dacfe1ca83.jpeg

4692884a59cefd8d19d67f8cef5e5599.jpeg

833b176a1faf81328a0116aee7ffbcce.jpeg

f52b7ef475cba95e5805174534186317.jpeg

7a5ea94f72dcdabbef67187dc01312d5.jpeg

7a8da0faf00cc63a842bed2890633971.png

64e2622433b30462763e0bdf3cbfc6c6.png

29877e1d03bc2db8a827bf5812dff3f4.png

ebe327c91d65063ae37abbb3dc88a2b8.png

da6ba79cd3c8a701512757a06edfb334.jpeg

fb54a88df76387b366320712b6c453a9.jpeg

590b2d63ac3b152bbafbffd71e2aaa28.jpeg

69d5a9cded79c59e4d2f5e7a79c9dd69.jpeg

c1c55a610fbbde6eb2cf5d11d150273d.png

7b31f8d0c5173e8f5acb31b75ab14ec1.png

3cace33fef0e7d123f6b75ab16a27455.jpeg

2252962a368a4694b6f0200e50820077.png

571c38b5caed88a3001c45a4e8074e25.png

10d746eefac37af09ab2c2448f7f0b63.jpeg

205064660d0a9bac6979ab766bbf2f4d.png

415f06f6e39310f30fe07b704e001adc.png

机器学习

605c74eb2f1103e3929f6d8cf2436fb4.jpeg

49177c2edb9dbef4b55703138758551e.jpeg

204c2baed2a886beb5d4d872936612da.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/651509.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring事务回滚核心源码解读

记一次Springboot事务超时不回滚的分析过程 在Springboot中,我用的xml进行事务管理,DataSourceTransactionManager作为事务管理器,配置了事务控制在Service层;在事务管理器中,配置了defaultTimeout事务超时时间为5秒&…

IEC 62680新规上线,慧能泰设备端PD协议芯片带你勇闯欧盟

2022年12月7日,欧盟发布了Directive (EU) 2022/2380,强化了通用充电器的规定,并计划于2024年12月28日起,在所有欧盟国家强制执行该指令。此修订主要针对新生产的手机、平板、相机、耳机、游戏机、音箱、电子书、键盘、鼠标、导航仪…

使用knuth Durstenfeld Shuffle置乱关键区域

示意图 使用knuth Durstenfeld Shuffle置乱关键区域。比较典型的就是当我们对图像进行小波变换后,能量主要集中在左上角。 将图像进行排列,将关键区域置于整个序列的末尾,从末尾开始逐个交换,完成置换。 为了演示方便&#xff0c…

第 3 篇 : Netty离线消息处理(可跳过)

说明 仅是个人的不成熟想法, 未深入研究验证 1. 修改 NettyServerHandler类 package com.hahashou.netty.server.config;import com.alibaba.fastjson.JSON; import io.netty.channel.Channel; import io.netty.channel.ChannelHandler; import io.netty.channel.ChannelHan…

CRM客户管理系统盘点2024:16款顶级系统PK赛,寻找最佳利器

客户关系管理系统(CRM)在企业数字化转型的过程中扮演着至关重要的角色。选择一个高效、功能丰富的CRM客户管理系统,对于确保企业未来健康、稳定的发展至关重要。当前市场上存在着众多的CRM客户管理系统件,每个软件都有其独特的功能…

C#开发的全套成熟的LIS系统源码JavaScript+SQLserver 2012区域云LIS系统源码

C#开发的全套成熟的LIS系统源码JavaScriptSQLserver 2012区域云LIS系统源码 医院云LIS系统是一套成熟的实验室信息管理系统,目前已在多家三级级医院应用,并不断更新。云LIS系统是为病人为中心、以业务处理为基础、以提高检验科室管理水平和工作效率为目标…

攻防世界 easyphp

本题主要利用的知识点是php绕过 一、PHP代码分析 首先先看一下代码 我们需要利用get方式上传3个参数a,b,c,这3个分别需要满足不同的条件: a:设置a值;值大于6000000;长度不超过3; b:设置b值;MD…

MT8788智能模块简介_MTK联发科安卓核心板方案厂商

MT8788安卓核心板是一款具备超高性能和低功耗的4G全网通安卓智能模块。该模块采用联发科AIOT芯片平台,供货周期长。 MT8788核心板搭载了12nm制程的四个Cortex-A73处理器核心和四个Cortex-A53处理器核心,最高主频可达2.0GHz。板载内存容量可选为4GB64GB(也…

Linux2.6内核进程调度队列

目录 运行队列runqueue 活跃队列&过期队列 queue[140]&优先级&队列数组下标 bitmap[5]&O(1)调度算法 nr_active active指针和expired指针 O(1)调度算法之调度过程 本篇是Linux进程概念篇的最后一篇,Linux2.6内核是一个具体的/可行的/实际的存…

【计算机系统基础读书笔记】1.1.2 冯诺依曼机基本结构

1.1.2 冯诺依曼机基本结构 冯诺依曼机基本结构如图所示: 模型机中主要包括: 主存储器:用来存放指令和数据,简称主存或内存; 算数逻辑部件(Arithmetic Logic Unit,简称ALU)&#x…

SignalR中的重连机制和心跳监测机制详解

一. 重连机制 声明:   本节仅介绍重连机制和心跳监测机制,基于Core 3.1框架,至于SignalR其它的一些基本使用,包括引入、Hub、配置等常规操作,在本节中不介绍,后续写Core下的SignalR 说明   默认是没有重…

Log4j日志框架多种日志级别

Log4j日志框架定义了多种日志级别,这些级别按照优先级从高到低排列如下: OFF:这是最高等级的日志级别,用于关闭所有日志记录。FATAL:指出每个严重的错误事件将会导致应用程序的退出。ERROR:表明发生错误事…