论文解析-moETM-多组学整合模型

论文解析-moETM

  • 参考
  • 亮点
  • 动机
  • 发展现状
    • 现存问题
  • 功能
  • 方法
    • Encoder改进
    • Decoder改进
  • 评价指标
    • 生物保守性
    • 批次效应移除
  • 实验设置
  • 结果
    • 多组学数据整合
    • cell-topic mixture可解释性
    • 组学翻译性能评估
    • RNA转录本、表面蛋白、染色质可及域调控关系研究
      • 1. 验证同一主题下,top gene可以映射到top protein
        • 过程
        • 结果
      • 2. 跨主题验证gene-protein、peak-gene的调控关系
        • 过程
        • 结果
      • 3. 验证重构的gene-protein、peak-gene更能反映组学相关性
    • 联合peak-gene分析细胞类型特异性通路和调控机制
      • 分析细胞类型特异性通路
      • 分析细胞类型特异性motif
      • 分析细胞类型特异性通路联合motif
  • 补充
    • 基因(蛋白)集富集过程
    • 基因与翻译蛋白表达负相关的可能原因
    • 寻找细胞标志物的资源--CellMarker数据库
    • 寻找TF对应靶基因的资源--ENCODE Transcription Factor Targets

参考

Zhou, M. et al. Single-cell multi-omics topic embedding reveals cell-type-specific and COVID-19 severity-related immune signatures. Cell Reports Methods 3, 100563 (2023).
在这里插入图片描述

亮点

动机

从单细胞多组学数据探究生物模式的现存困难:

  1. 相比单组学技术,多组学技术通量更低,数据包含的细胞数量较少
  2. 不同组学结合之后特征维度更高,例如把scRNA-seq和scATAC-seq结合到一起
  3. 多组学数据噪声更多(解决方式:概率模型)
  4. 批处理效应
  5. 多组学测序技术成本更高(解决方式:用模型预测缺失的组学数据)

发展现状

方法文献
SMILEXu, Y., Das, P., and McCord, R.P. (2022). Smile: mutual information learning for integration of single-cell omics data. Bioinformatics 38, 476–486.
totalVIGayoso, A., Steier, Z., Lopez, R., Regier, J., Nazor, K.L., Streets, A., and Yosef, N. (2021). Joint probabilistic modeling of single-cell multi-omic data with totalvi. Nat. Methods 18, 272–282.
multiVIAshuach, T., Gabitto, M.I., Jordan, M.I., and Yosef, N. (2021). Multivi: Deep Generative Model for the Integration of Multi-Modal Data. Preprint at bioRxiv. https://doi.org/10.1101/2021.08.20.457057.
CoboltGong, B., Zhou, Y., and Purdom, E. (2021). Cobolt: integrative analysis of multimodal single-cell sequencing data. Genome Biol. 22, 351–421.
scMMMinoura, K., Abe, K., Nam, H., Nishikawa, H., and Shimamura, T. (2021). Scmm: Mixture-Of-Experts Multimodal Deep Generative Model for Single-Cell Multiomics Data Analysis. Preprint at bioRxiv. https://doi.org/ 10.1101/2021.02.18.431907.
MultigrateLotfollahi, M., Litinetskaya, A., and Theis, F.J. (2022). Multigrate: SingleCell Multi-Omic Data Integration. Preprint at bioRxiv. https://doi.org/10. 1101/2022.03.16.484643.
MOFA+Argelaguet, R., Arnol, D., Bredikhin, D., Deloro, Y., Velten, B., Marioni, J.C., and Stegle, O. (2020). Mofa+: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol. 21, 111–117.

现存问题

  1. 需要在可扩展性、可解释性和灵活性进行权衡
  2. 完全数据驱动,不能充分利用生物学信息,例如基因注释和通路信息

功能

  1. 细胞聚类,识别细胞亚型
  2. 基于一个组学数据插补另一个组学数据
  3. 识别细胞类型特征和生物标志物

方法

在这里插入图片描述

整体是VAE架构,但是他在Encoder和Decoer分别作了改进:

Encoder改进

  1. 假设每个组学数据分布符合K维独立的逻辑正态分布,这里采用K维高斯乘积(PoG)充分利用这些分布的信息,比之前的MoE得到更有效的变分推理。
  2. 前人方法对每个组学分别进行采样K维高斯变量然后平均化,这里只需从联合高斯采样一次,因此可以得到更鲁棒的结果。
  3. Topic解释:对联合高斯密度进行Softmax计算,生成的逻辑正态分布可视为细胞的主题混合。

Decoder改进

  1. 矩阵分解作为Decoder,把cell-by-feature matrices分解成shared cell-by-topic matrix,shared topic-embedding matrix和M(组学数量)个独立的feature-embedding matrices
  2. 引入组学特异性的批次移除因子λ,作为线性可加的批次特异性偏差

评价指标

生物保守性

  1. Adjusted Rand Index (ARI)
  2. Normalized Mutual Information (NMI)

批次效应移除

  1. k-nearest neighbor batch effect test (kBET)
  2. Graph connectivity (GC):衡量不同批次相同细胞类型之间的相似性,同时衡量生物保守型和批次移除效应

实验设置

随机分为训练集:测试集=6:4,重复500次

结果

多组学数据整合

在这里插入图片描述

  1. 在4个peak-gene数据集上的平均指标第二,在3个gene-protein数据集上的平均指标第一,在所有7个数据集上平均指标第一
  2. moETM_* 为只利用组学*的数据进行训练和测试,与moETM结果对比表示,整合多组学数据比单组学数据得到更准确的结果
  3. moETM_avg 用分别从每个组学的高斯分布分别采样然后平均化代替PoG算法,结果降低了,说明PoG对于moETM起重要作用

cell-topic mixture可解释性

在这里插入图片描述
使用BMMC2数据集,把moETM训练得到的cell-by-topic matrix进行UMAP可视化,与其他方法得到的cell embdding可视化进行对比。
说明,cell-by-topic matrix既消除的BatchEffect,又识别了细胞类型。

组学翻译性能评估

在这里插入图片描述

  1. 由A、B图看出,基于转录组数据翻译的蛋白数据与原始蛋白数据高度相似,且高度线性相关(PCC约0.95)
  2. 由C、D图看出,基于ATAC数据翻译的基因数据与原始基因数据高度相似,且高度线性相关(PCC约0.69)
  3. 由A、C图对比看出,相比蛋白表达数据,基因表达数据明显更稀疏。因此,基于ATAC翻译RNA比基于RNA翻译蛋白更难
  4. 实验结果的PCC(ATAC2RNA=0.69,RNA2ATAC=0.58,RNA2protein=0.95,protein2RNA=0.65),由此推断翻译任务难度RNA2protein < ATAC2RNA < protein2RNA < RNA2ATAC

RNA转录本、表面蛋白、染色质可及域调控关系研究

1. 验证同一主题下,top gene可以映射到top protein

过程

对于每个topic,计算134对基因和对应的翻译蛋白的 topic score 的Spearman correlation

结果
  1. 平均相关性在0.29
  2. 13个topic 相关性高于0.5

2. 跨主题验证gene-protein、peak-gene的调控关系

过程

如果一个peak在一个基因转录起始位点150k bp之内,则认为他们是匹配的。
查看匹配的peak-gene、gene-protein的相关系数分布

结果

查看匹配的peak-gene、gene-protein的相关系数分布显著高于0,并且和观测值得到的分布类似。
说明:该算法在整合的时候保留的调控相关性,且能反映原始数据特征

3. 验证重构的gene-protein、peak-gene更能反映组学相关性

在这里插入图片描述
表明模型可以对观测数据的噪声进行降噪和混杂校正,更能反映单细胞中的不同组学的相关性

联合peak-gene分析细胞类型特异性通路和调控机制

分析细胞类型特异性通路

  1. 聚焦于一种类型的细胞(CD8+ T cells),将peak匹配到gene上,peak在一个基因转录起始位点150k bp之内,找到peak-neighboring genes。联合Topic score较高的的Top gene、Top peak联合分析
  2. 发现Top5 genes中3个与T细胞功能相关,Top5 peak对应的peak-neighboring genes中2个与T细胞功能相关,说明揭示了细胞类型特异性基因。
  3. 对Top5 genes、Top5 peak-neighboring genes进行通路富集(GSEA),得到的富集pathway与当前细胞类型相关,富集的基因集在当前细胞类型中显示出差异性表达(上调或下调),表明揭示了细胞类型特异性通路,及调控机制

分析细胞类型特异性motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),从Ensembl database中,寻找根据Topic score排名的Top100 peaks对应的100个序列
  2. 将100个序列输入SEA算法,寻找这100个序列富集的motif
  3. 通过连接 Top genes,细胞类型、富集motif对应TFs 构造细胞类型特异性调控网络
  4. 通过ENCODE TF Targets dataset将已知的TF-genes用黄色线连接起来
  5. 结果表明:根据peak得到的motif在这种细胞类型中若干靶基因属于Top genes,说明模型识别了细胞类型特异性调控机制和motif特征

分析细胞类型特异性通路联合motif

在这里插入图片描述

  1. 聚焦于一种类型的细胞(CD8+ T cells),通过连接 Top genes、富集motif对应TFs、富集pathway构建pathway-motif网络
  2. motif与Top genes根据ENCODE TF Targets dataset记录的调控关系连线
  3. 对比该类型的富集motif与相关的pathway(基因特异性表达,上调或下调),表示motif和pathway之间的调控关系一致性

补充

基因(蛋白)集富集过程

在这里插入图片描述

  1. 对于每个Topic,根据主题分数得到的rank gene list,通过运行GSEAPreranked函数从Molecular signatures database (MSigDB)查询2种基因集(免疫学特征基因集,基因本体生物过程)
  2. 对于过表达或低表达的基因计算富集分数(ES)
  3. 计算ES的统计学显著性
  4. 认为显著性 p-value<0.05 的基因集是显著的
  5. 图中每个颜色代表一个基因集(pathway),虚线以上的代表具有显著性。目的是说明每个Topic均可以显著性富集到基因集或pathway

基因与翻译蛋白表达负相关的可能原因

  1. 随机噪声可能会阻碍基因和蛋白质之间的相关性
  2. 单细胞水平的动态细胞过程(转录爆发、转录或翻译延迟)可引起细胞之间的差异,导致相关性降低
  3. 其他生物过程的影响压倒了转录的影响(转录后翻译的影响超过了蛋白质合成)
  4. mRNA降解速度超过蛋白质合成速度

寻找细胞标志物的资源–CellMarker数据库

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., Luo, T., Xu, L., Liao, G., Yan, M., et al. (2019). Cellmarker: a manually curated resource of cell markers in human and mouse. Nucleic Acids Res. 47, D721–D728.

寻找TF对应靶基因的资源–ENCODE Transcription Factor Targets

The ENCODE Project Consortium (2011). A user’s guide to the encyclopedia of dna elements (encode). PLoS Biol. 9, e1001046.
ENCODE Project Consortium; and Pachter, L. (2004). The encode (encyclopedia of dna elements) project. Science 306, 636–640.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/139400.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mac电脑文献管理 EndNote 21最新 for Mac

EndNote 21 Mac版不仅能够快速有效的的帮助用户管理自己的文献&#xff0c;而且还可以用来创建个人参考文献库&#xff0c;添加各种文本&#xff0c;图像&#xff0c;连接&#xff0c;表格等等内容&#xff01; - 搜索数百个在线资源以获取参考和PDF - 只需点击一下即可查找参…

android系统签名 V1,V2,V3

android系统签名 V1&#xff0c;V2&#xff0c;V3 7.1 之前V1 签名 文件路径&#xff08;build\target\product\security&#xff09; apk添加系统权限 <manifest xmlns:android"http://schemas.android.com/apk/res/android" android:sharedUserId"…

详解使用sklearn实现一元线性回归和多元线性回归

[Open In Colab] 文章目录 1. 线性回归简介2. 使用sklearn进行一元线性回归3. 线性回归的coef_参数和intercept_参数4. 使用sklearn实现多元线性回归4.1 利用PolynomialFeatures构造输入4.2 进行多元线性回归 5. 总结 import numpy as np import matplotlib.pyplot as plt1. 线…

基于内存的分布式NoSQL数据库Redis(六)AOF设计

文章目录 知识点21&#xff1a;Redis持久化&#xff1a;AOF设计知识点22&#xff1a;Redis持久化&#xff1a;AOF实现附录一&#xff1a;Jedis Maven依赖 知识点21&#xff1a;Redis持久化&#xff1a;AOF设计 目标&#xff1a;掌握Redis的AOF持久化机制 路径 step1&#xff1…

竞赛选题 深度学习二维码识别

文章目录 0 前言2 二维码基础概念2.1 二维码介绍2.2 QRCode2.3 QRCode 特点 3 机器视觉二维码识别技术3.1 二维码的识别流程3.2 二维码定位3.3 常用的扫描方法 4 深度学习二维码识别4.1 部分关键代码 5 测试结果6 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天…

小程序的console中出现:。。。不在以下 request 合法域名列表中,请参考文档:。。。的报错解决

报错效果&#xff1a; 其实这个报错不代表自己的代码有问题 但是本强迫症研究了一下&#xff0c;按照以下方法关掉就不会显示这个报错了。 点微信开发者工具中的右上角的详情。点本地设置。勾选不校验。。。HTTPS证书。 即可关闭该报错&#xff1a;

企业c#语言源代码防泄密解决方案

在当今数字化时代&#xff0c;企业的核心业务往往依赖于软件应用程序。为了保护企业的知识产权和敏感信息&#xff0c;源代码的保密至关重要。对于制造类企业尤其是智能制造业来讲&#xff0c;最近几年是高速发展的时期&#xff0c;很多公司在做工厂流水线设备时&#xff0c;就…

使用Premiere、PhotoShop和Audition做视频特效

今天接到一个做视频的任务&#xff0c;给一个精忠报国的视频&#xff0c;要求&#xff1a;   ①去掉人声&#xff0c;就是将唱歌的人声去掉&#xff0c;只留下伴奏&#xff1b;   ②截图视频中的横幅&#xff0c;做一个展开的效果&#xff0c;类似卷纸慢慢展开&#xff1b;…

UE4 快速入门 1

安装 https://www.unrealengine.com/zh-CN/download Launcher ue4.23 editor visual studio 2019 社区版 文档学习

ssm+vue基本微信小程序的今日菜谱系统

项目介绍 谈到外出就餐&#xff0c;我们除了怕排队&#xff0c;也怕这家餐厅的服务员不够用&#xff0c;没人为我们点餐&#xff0c;那么一餐饭排队一小时&#xff0c;点餐恐怕也要花个半小时&#xff0c;这样不仅给消费者的用餐体验大打折扣同时也给商家的口碑造成了严重负面…

Git reset current branche here操作请谨慎停留3秒

Idea git弹框请谨慎操作 下面几个选项要慎选 reset操作说明 soft&#xff0c;将版本回滚&#xff0c;工作区不动&#xff0c;暂存区原来的回滚后和回滚前的版本差异。 mixed&#xff0c;将版本回滚&#xff0c;回滚到了所有 git add 和 git commit 的命令执行之前。暂存区变…

一步步掌握Java IO的奥秘:深入学习BIO、NIO,实现客户端与服务器通信

众所周知&#xff0c;Java IO是一个庞大的知识体系&#xff0c;很多人在学习的过程中会感到迷茫&#xff0c;甚至学得一头雾水&#xff0c;而我也曾有同样的困惑。因此&#xff0c;本文的目标是帮助大家一步一步深入学习Java IO&#xff0c;从BIO开始&#xff0c;然后引出JDK1.…