100个GEO基因表达芯片或转录组数据处理之GSE159676(002)

写在前边

虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。

数据信息检索

可以看到GSE159676是基因表达芯片数据,因此可以使用GEOquery包下载数据
在这里插入图片描述

使用GEOquery包下载数据

using(tidyverse, GEOquery, magrittr, data.table, AnnoProbe, clusterProfiler, org.Hs.eg.db, org.Mm.eg.db)

注:using是我写的函数,作用是一次性加载多个R包,不用写双引号,并且不在屏幕上打印包的加载信息,可以参考之前的推文using的定义;函数名字using是在模仿Julia语言中的包加载函数

geo_accession <- "GSE159676"
gset <- GEOquery::getGEO(geo_accession, destdir = "./", AnnotGPL = F, getGPL = F)
eSet <- gset[[1]]
gpl <- eSet@annotation

处理表型数据

这部分是很关键的,可以筛选一下分组表型信息,只保留自己需要的样本,在这里只保留diagnosis:ch1中HC和NASH的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)

pdata <- pData(eSet)
geo_accessionage (y):ch1diagnosis:ch1fibrosis (stage):ch1gender:ch1
GSM238572060SS0female
GSM238572152NASH4female
GSM238572260SS1female
GSM238572346SS0male
GSM238572447SS0female
GSM238572530SS0male
pdata %<>%dplyr::mutate(Sample = geo_accession,Group = case_when(`diagnosis:ch1` == "HC" ~ "Control", `diagnosis:ch1` == "NASH" ~ "Case", TRUE ~ NA),Age = `age (y):ch1`,Sex = str_to_title(`gender:ch1`),Stage = `fibrosis (stage):ch1`) %>%dplyr::filter(!is.na(Group)) %>%dplyr::select(Sample, Group, Age, Sex)

处理表达谱数据

数据大小小于50可以不取log

exprs_mtx <- exprs(eSet)
probe_exprs <- as.data.table(exprs_mtx, keep.rownames = "ProbeID")
range(exprs_mtx, na.rm = TRUE)
# 7.4390507 15.758859

探针与基因Symbol对应关系

GPL14951-11332.txt可以直接从GEO网站下载

probe2symbol <- fread("GPL14951-11332.txt") %>% dplyr::rename(ProbeID = ID) %>% dplyr::mutate(GeneID=as.character(Entrez_Gene_ID)) %>% dplyr::select(ProbeID, GeneID) %>% drop_na()

我们从中GPL14951-11332.txt得到的是NCBI数据库中的Entrez ID,需要使用clusterProfiler包把它转换为基因Symbol

maps <- clusterProfiler::bitr(geneID = probe2symbol$GeneID,fromType = "ENTREZID",toType = "SYMBOL",OrgDb = org.Hs.eg.db)

合并数据库,最终得到了探针与基因Symbol对应关系

probe2symbol %<>% merge(maps,by.x='GeneID',by.y='ENTREZID') %>% dplyr::select(ProbeID, SYMBOL) %>% dplyr::rename(GeneID=SYMBOL)

ID转换

把表达矩阵中的探针名转换为基因名;transid是我写的一个R函数,有需要可以联系我的公众号@恩喜玛生物,加入交流群

fdata <- transid(probe2symbol, probe_exprs)

保存数据

common_samples <- base::intersect(colnames(fdata),pdata$Sample)
fdata %<>% select(all_of(c("GeneID",common_samples)))
fwrite(fdata, file = stringr::str_glue("{geo_accession}_{gpl}_fdata.csv.gz"))
pdata %<>% dplyr::filter(Sample %in% common_samples)
fwrite(pdata, file = stringr::str_glue("{geo_accession}_{gpl}_pdata.csv"))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/339584.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 gitee+sphinx+readthedocs 搭建个人博客

给大家安利如何快速搭建个人博客网站&#xff01; 前言 这是我本地运行的一个使用sphinx构建的博客服务&#xff0c;这些文章&#xff0c;都是用markdown写的。 一直有个想法&#xff0c;就是把自己写的这些文件&#xff0c;搞成一个博客网站&#xff0c;放到网上&#xff0c…

全新小白菜QQ云端机器人登录系统源码 /去除解密授权学习版源码

源码介绍&#xff1a; 全新小白菜QQ云端机器人登录系统源码&#xff0c;是一款经过全面解密的授权学习版源码。 这款源码已解除了授权版的限制&#xff0c;然而许多人可能对其用途并不了解。实际上&#xff0c;该源码主要面向群机器人爱好者设计。它是一个基于挂机宝机器人框…

理解Herbrand Equivalence

笔者最近在看GVN的一系列论文&#xff0c;总会看到一个概念叫Herbran Equivalence&#xff0c;依靠这种定义&#xff0c;能够判断一个GVN算法是否是complete的&#xff0c;也即检测一个算法是否是precise的&#xff0c;只有找到所有Herbrand Equivalence关系的算法才能称得上是…

SD-WAN如何实现广域网加速

随着企业的全球化和数字化转型&#xff0c;广域网&#xff08;WAN&#xff09;的性能和可靠性成为业务成功的关键因素。在这一背景下&#xff0c;软件定义广域网SD-WAN作为一种先进的网络技术&#xff0c;被广泛应用于提升广域网的加速效果。本文将深入探讨SD-WAN是如何实现广域…

CSCD期刊目录中,审稿及出版效率均较好的10本医药期刊推荐!

常笑医学整理了适合医、药、护、技及医学工程等人员进行论文投稿的中国科学引文数据库&#xff08;CSCD&#xff09;中的10本医药期刊&#xff0c; 以及期刊详细参数&#xff0c;供大家参考。 1.《中国实用内科杂志》 &#xff08;详细投稿信息请点击刊物名称查看&#xff09; …

本地远程实时获取无人机采集视频图像(天空端 + jetson nano + 检测分割 + 回传地面端显示)

无线图传设备介绍 2、jetson nano天空端数据采集检测保存 3、本地回传显示 1、无线图传设备介绍 由于本设计考虑将无人机得到检测结果实时回传给地面站显示&#xff0c;因此需要考虑一个远程无线通信设备进行传输。本设计采用思翼HM30图传设备。通过无线图传的wifi将天空端的桌…

HMM算法(Hidden Markov Models)揭秘

序列数据 机器学习的数据通常有两类&#xff0c;最常见的是独立同分布数据&#xff0c;其次就是序列数据。对于前者&#xff0c;一般出现在各种分类/回归问题中&#xff0c;其最大似然估计是所有数据点的概率分布乘积。对于后者&#xff0c;一般出现在各种时间序列问题中&…

基于Java SSM框架实现高校校园点餐系统项目【项目源码+论文说明】

基于java的SSM框架实现高校校园点餐系统演示 摘要 21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&a…

SSL证书链是什么?SSL证书链如何工作?

SSL证书链作为公钥基础设施&#xff08;PKI&#xff09;的一项关键功能&#xff0c;它支持许多与安全相关的服务&#xff0c;包括数据机密性、数据完整性和最终实体身份验证&#xff0c;它使得互联网上的安全在线通信成为可能。那么SSL证书链是什么&#xff1f;SSL证书链如何工…

应用GIS进行生态敏感性评价

生态环境敏感性是指生态系统对区域内自然和人类活动干扰的敏感程度&#xff0c;它反映区域生态系统在遇到干扰时&#xff0c;发生生态环境问题的难易程度和可能性的大小&#xff0c;并用来表征外界干扰可能造成的后果。即在同样干扰强度或外力作用下&#xff0c;各类生态系统出…

盲盒小程序能够为企业商家带来哪些优势?

近几年&#xff0c;盲盒深受大家关注&#xff0c;现在在各大商场中&#xff0c;盲盒的身影也处处可见&#xff0c;商家也因此获得了一定的利润。 随着人们生活消费水平的提高&#xff0c;消费者在消费中也逐渐追求新颖的消费模式&#xff0c;而盲盒的未知性特点&#xff0c;恰…

力扣 | 139. 单词拆分

主要是要注意组合的顺序是任意的&#xff01;所以就要先选择目标字串&#xff0c;再选择wordDict public boolean wordBreak(String s, List<String> wordDict) {// dp[i]: 表示前 i 个字符组成的子串是否可以被 wordDict 中的字符串组合而成boolean[] dp new boolean[s…