研究论文 2022-Oncoimmunology:AI+癌RNA-seq数据 识别细胞景观

Wang, Xin, et al. "Deep learning using bulk RNA-seq data expands cell landscape identification in tumor microenvironment." Oncoimmunology 11.1 (2022): 2043662. https://www.tandfonline.com/doi/full/10.1080/2162402X.2022.2043662

被引次数:5

2022年分区:大类医学2区;小类免疫学2区,肿瘤学 3区

IF 7.723 JCR Q1

一、数据集

从GDC数据库(https://portal.gdc.cancer.gov/projects)下载32种“癌症样本和正常样本”,共有10906患者的表达谱和临床数据。

非小细胞肺癌数据的两种亚型:肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)

从GEO数据集(https://www.ncbi.nlm.nih.gov/geo/)下载5个数据集:

  • GSE81861(CRC):11例结直肠癌患者的样本,包含7种细胞类型。引用文献32

  • GSE75688(BC):11个乳腺癌细胞和淋巴结转移的单细胞测序数据。引用文献33。包括515个单细胞RNA测序数据,使用Illumina HiSeq 2500进行测序。基因表达水平以TPM(每百万转录本)表示,已经进行了标准化,可以在下一步的分析中进行比较。

  • GSE86146(FGC):2167个个体生殖细胞及其生殖腔细胞,涵盖了从怀孕后4周到26周的女性和男性人类胚胎的发育阶段。引用文献21。

  • GSE72056(Melanoma):31个黑色素瘤样本及其6种细胞类型。引用文献34。

  • GSE78220(PD1):38个黑色素瘤活检样本在抗PD-1治疗之前的转录组样本和相应的临床数据。引用文献35。

  • 细胞类型及其对应的标记基因来自CellMarker数据库(http://bio-bigdata.hrbmu.edu.cn/CellMarker/)。

CellMarker数据预处理

从CellMarker数据库中下载了来自158个人类组织中的467种细胞类型的13,605个标记基因。

数据处理如下:由于一些细胞及其标记基因在不同人类组织中重复出现,我们删除了组织特异性的重复,仅保留一个细胞及其标记基因作为重复组的代表。为了DCNet模型的训练目的,删除了在TCGA基因集中未检测到的标记基因[详见TCGA数据预处理],然后排除了33个细胞类型,因为未检测到任何标记基因。最终,保留了434个细胞类型,包括免疫细胞、癌细胞、基质细胞等,以及它们对应的9078个标记基因,用于进一步的分析。通过整合CellMarker数据库(http://biocc.hrbmu.edu.cn/CellMarker/)和Cell Ontology数据库(OBO:http://www.obofoundry.org/ontology/cl.html)中的类别信息,计算了主要细胞类型的细胞丰度。在DCNet识别的434个细胞类型中,有77个细胞类型没有Cell Ontology ID,137个细胞类型没有自己的Cell Ontology ID,但被分配到其父类的术语ID,220个细胞类型在OBO数据库中有自己的Cell Ontology ID。对于没有Cell Ontology ID或仅有其父类Cell Ontology ID的细胞类型,从CellMarker数据库中获取了细胞类型之间的层次关系信息。对于具有自己Cell Ontology ID的细胞类型,从Cell OBO数据库中下载了细胞类型之间的本体结构信息。整合这些信息,创建了附表1,其中包含了父细胞类型和子细胞类型的名称、细胞本体ID的父细胞类型和子细胞类型、数据源数据库(CellMarker或OBO)。

对于CellMarker数据库,父细胞类型的细胞丰度是通过累加其子细胞类型的细胞丰度计算的;而对于OBO数据库,父细胞类型的细胞丰度是通过累加其在细胞本体结构中的叶节点的细胞丰度计算的。

TCGA的表达谱数据预处理

对于TCGA的表达谱数据,删除了在超过1/3的样本中表达水平为0的基因,保留了21,136个基因,并进行了对数归一化。我们将每个样本的基因表达分为输入数据(9078个标记基因的表达水平)和输出数据(21,136个基因的表达水平)。由于癌症样本分布不均匀,我们采用了过采样方法来扩大样本数量,同时平衡样本类别。此外,在实验测量过程中,由于某些基因的低表达强度或实验误差,可能无法检测到一些基因,这将导致模型的输入维度与标记基因维度不匹配。为解决这个问题,输入数据以0.1、0.3、0.5的概率被随机删除(0填充),这不仅可以增加训练样本,还可以降低过拟合的风险。最后,所有样本按80%和20%的比例划分为训练集和测试集。

我们还使用TCGA biolink 软件包从TCGA队列中获取了1487名肿瘤转移患者的临床数据和药物治疗信息。如果接受某种药物治疗的患者数量小于48,则该药物的信息将被截断。

二、DCNet神经网络构建与训练

DCNet model trains a deep neural network, which embeds the relationships between cells and their marker genes, to predict more than 400 cell types proportion within bulk seq dataset. 

DCNet 模型训练深度神经网络,该网络嵌入细胞及其标记基因之间的关系,以预测批量 seq 数据集中 400 多种细胞类型的比例。

图1. DCNet架构和设计流程。 (a) 组织中不同的细胞类型,如基质细胞、红细胞、巨噬细胞、T细胞、B细胞、神经元细胞等。这些细胞又可进一步分割不同的细胞(b) DCNet模型的基本结构。输入是bulk RNA-seq中标记基因的表达水平,输出是所有基因的表达水平。中间层人工神经网络。(c) 神经灰色DCNet模型的第一级关系是细胞与标记基因的对应关系。DCNet模型的中间层代表细胞的相对内容。 显示全尺寸

三、比较

不同参数量下的NN比较(类似敏感性分析)

与其他方法比较:CIBERSORTx、EPIC、MCP-Counter、quanTIseq、xCell(默认参数,代码链接见正文,同时R包immunoconv包含了这些方法可用来预测细胞丰度)

四、模型训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/297696.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu20.04安装timeshift最新方法

总结: 现在可以使用如下代码安装 sudo apt-get update sudo apt-get install timeshift原因: 在尝试Timeshift系统备份与还原中的方法时, sudo apt-add-repository -y ppa:teejee2008/ppa运行失败。 更改为以下代码: sudo a…

使用ArcMap进行栅格数据矢量化

文章目录 题目流程1,打开ArcMap软件,加入练习数据到工作区2,定义投影3,地理配准4,开始绘制 题目 实验名称:栅格数据矢量化 实验目的及要求: 1. 掌握栅格数据矢量化预处理方法 2. 掌握矢量数据…

redis基本用法学习(C#调用FreeRedis操作redis)

FreeRedis属于常用的基于.net的redis客户端,EasyCaching中也提供适配FreeRedis的包。根据参考文献4中的说法,FreeRedis和CsRedis算是近亲(都是GitHub中账号为2881099下的开源项目),因此其用法特别相似。FreeRedis的主要…

python(上半部分)

第一部分 1、input()语句默认结果是字符串 2、type()可以判断变量的类型 3、input()输出语句 (默认为字符串类型) 4、命名规则:中文、英文、数字、_,数字不可开头,大小写敏感。 5、 %s:将内容转换成…

Java研学-HTTP 协议

一 概述 1 概念和作用 概念:HTTP 是 HyperText Transfer Protocol (超文本传输协议)的简写,它是 TCP/IP 协议之上的一个应用层协议。简单理解就是 HTTP 协议底层是对 TCP/IP 协议的封装。   作用:用于规定浏览器和服务器之间数据传输的格式…

freeRTOS实时操作系统学习笔记

温馨提示:点击图片查看大图更清晰 —————————————————————————————↑↑↑上方资源下载后可获取xmind原文件。 1、freeRTOS移植和配置脑图 2、内核源码学习

智能优化算法应用:基于侏儒猫鼬算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于侏儒猫鼬算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于侏儒猫鼬算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.侏儒猫鼬算法4.实验参数设定5.算法结果6.…

智能算法(GA、DBO等)求解零空闲流水车间调度问题(NIFSP)

先做一个声明:文章是由我的个人公众号中的推送直接复制粘贴而来,因此对智能优化算法感兴趣的朋友,可关注我的个人公众号:启发式算法讨论。我会不定期在公众号里分享不同的智能优化算法,经典的,或者是近几年…

Stable Diffusion 基本原理

1 Diffusion Model的运作过程 输入一张和我们所需结果图尺寸一致的噪声图像,通过Denoise模块逐步减少noise,最终生成我们需要的效果图。 图中Denoise模块虽然是同一个,但是它会根据不同step的输入图像和代表noise严重程度的参数选择denoise的…

比亚迪王朝B级SUV新旗舰起航

12月15日宋L正式投入市场,这也宣告着比亚迪王朝品牌全新的里程碑。作为宋家族中定位稍高的L级车型,宋L本次一共上市推出了4款后驱车型和1款四驱车型。其中后驱车型的电机功率从200kW至380kW不等,续航里程最大可达662公里,满足不同…

MYSQL函数\约束\多表查询\事务

函数 字符串函数 数值函数 mod就是取余 日期函数 流程函数 约束 外键约束 删除更新\外键 多表查询 多表关系 一对多 多对多 一对一 多表查询 内连接 select e.name d.name from emp e join dept d on e.id d.id; 外连接 select emp.*, d.name from emp left join tm…

nacos配置中心配置已经常见错误总结

💻目录 前言1、基础架构2、依赖3、配置文件3.1、bolg-product配置文件3.1.1、application.yml配置文件3.1.2、bootstrap.yml配置文件3.1.3、nacos远程配置 3.2、bolg-system3.1.1、application.yml配置文件3.1.2、bootstrap.yml配置文件3.2.3、nacos远程配置 4、测试…