GSVA,GSEA,KEGG,GO学习

目录

GSVA

1:获取注释基因集

2:运行

GSEA

1,示例数据集

2,运行

GSEA_KEGG富集分析

GSEA_GO富集分析

DO数据库GSEA

MSigDB数据库选取GSEA

KEGG

1:运行

2:绘图

bar图

气泡图

绘图美化

GO


GSVA

1:获取注释基因集

2:运行

GSEA

1,示例数据集

2,运行

GSEA_KEGG富集分析

GSEA_GO富集分析

DO数据库GSEA

MSigDB数据库选取GSEA

KEGG

GO


GSVA

【精选】RNA 18. SCI 文章中基因集变异分析 GSVA_gsva分析-CSDN博客

RNA-seq入门实战(八):GSVA——基因集变异分析 - 知乎 (zhihu.com)

表达矩阵反映了样本和基因的关系,则GSVA将一个“样本×基因”的矩阵转化为“样本×通路”的矩阵,直接反映了样本和读者感兴趣的通路之间的联系。因此,如果用limma包做差异表达分析可以寻找样本间差异表达的基因,同样地,使用limma包对GSVA的结果(依然是一个矩阵)做同样的分析,则可以寻找样本间有显著差异的通路。这些“差异表达”的通路,相对于基因而言,更加具有生物学意义,更具有可解释性,是统计学与生物学成功结合后,对GSEA结果的一次升华,可以进一步用于肿瘤subtype的分型等等与生物学意义结合密切的探究。

1:获取注释基因集

可以用msigdbr包下载读取或者GSEA | MSigDB | Human MSigDB Collections (gsea-msigdb.org)下载整理。 按需下载整理

##进行数据读取
geneSets <- getGmt('c2.cp.kegg_medicus.v2023.2.Hs.symbols.gmt')    ###下载的基因集##下载symbols的 注释文件,使用表达矩阵是省略了转换的麻烦
2:运行
rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)library(GSVA)
library(GSEABase)
library(clusterProfiler)expr <- read.csv("easy_input_expr.csv", row.names = 1)#表达矩阵
geneSets <- getGmt('h.all.v2023.2.Hs.symbols.gmt')##symbols 较为方便##运行
GSVA_hall <- gsva(expr=as.matrix(expr),#需要为matrix格式gset.idx.list=geneSets, #   method="gsva", #c("gsva", "ssgsea", "zscore", "plage")mx.diff=T, # 数据为正态分布则T,双峰则Fkcdf="Gaussian", #CPM, RPKM, TPM数据就用默认值"Gaussian", read count数据则为"Poisson",parallel.sz=4,# 并行线程数目min.sz=2) 

GSEA

快速拿捏KEGG/GO/Reactome/Do/MSigDB的GSEA富集分析! (qq.com)

【精选】RNA 11. SCI 文章中基因表达富集之 GSEA_gsea数据库-CSDN博客

GSEA(Gene Set EnrichmentAnalysis),即基因集富集分析,它的基本思想是使用预定义的基因,将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。

1,示例数据集
rm(list = ls()) 
library(DOSE)##包里有测试数据
library(clusterProfiler)
require(enrichplot)
options(stringsAsFactors = F)data(geneList, package = "DOSE")
head(geneList)##DOSE提供的一个geneList,name是每一个entrez gene id, value是log2FoldChange值。
df <- as.data.frame(geneList)##查看:还原gene symbol
df$ENTREZID <- rownames(df)
#?bitr 函数查看
df1<-bitr(df$ENTREZID, #转换的列是df数据框中的SYMBOL列fromType = "ENTREZID",#需要转换ID类型toType = "SYMBOL",#转换成的ID类型OrgDb = "org.Hs.eg.db")#物种选择(小鼠的是org.Mm.eg.db)
df2<-merge(df,df1,by="ENTREZID",all=F)##进行合并

测试数据查看

2,运行
GSEA_KEGG富集分析
rm(list = ls()) 
library(DOSE)##包里有测试数据
library(clusterProfiler)
require(enrichplot)
options(stringsAsFactors = F)
##input需要的是entrez ID+log2fc文件(包里的文件即为entrez ID+log2fc)
##如果不是entrez ID+log2fc,需要进行转换##数据集查看和整理
data(geneList, package = "DOSE")
head(geneList)
#4312     8318    10874    55143    55388      991 
#4.572613 4.514594 4.418218 4.144075 3.876258 3.677857 
df <- as.data.frame(geneList)##查看:还原gene symbol
df$ENTREZID <- rownames(df)
#?bitr 函数查看
df1<-bitr(df$ENTREZID, #转换的列是df数据框中的SYMBOL列fromType = "ENTREZID",#需要转换ID类型toType = "SYMBOL",#转换成的ID类型OrgDb = "org.Hs.eg.db")#物种选择(小鼠的是org.Mm.eg.db)
df2<-merge(df,df1,by="ENTREZID",all=F)##进行合并
df3 <-df2[,-1] 
head(df3)#自己分析常见的格式
#geneList SYMBOL
#1 -0.28492113   NAT2##以df3 为input进行转换:添加entrez ID列,symbol转entrez ID
##注意还原结果少几十个基因:因为一个entrez ID可能对应多个symbol(一基因多symbol)
dat<-bitr(df3$SYMBOL, fromType = "SYMBOL", #现有的ID类型toType = "ENTREZID",#需转换的ID类型OrgDb = "org.Hs.eg.db")#物种
head(dat)##转换时部分SYMBOL会转换失败dat1<-merge(df3,dat,by="SYMBOL",all=F)##进行合并
#按照foldchange排序
sortdf<-dat1[order(dat1$geneList, decreasing = T),]#这里geneList其实是logFC值
head(sortdf)geneList1 <- sortdf$geneList##先把foldchange按照从大到小提取出来
names(geneList1) <- sortdf$ENTREZID###给上面提取的foldchange加上对应上ENTREZID
head(geneList1 )
#4312     8318    10874    55143    55388      991 
#4.572613 4.514594 4.418218 4.144075 3.876258 3.677857  #GSEA_KEGG富集分析:
KEGG_ges <- gseKEGG(geneList = geneList1,#inputorganism = "hsa")#物种#按照enrichment score从高到低排序,便于查看富集通路
sortKEGG_ges<-KEGG_ges[order(KEGG_ges$enrichmentScore, decreasing = T),]
#sortKEGG_ges <- KEGG_ges@result

说明:在GSEA中,基因集的富集分数可以为正或负,表示该基因集在对应生物条件下的富集程度。富集分数的绝对值越大,表示富集程度越高。 对于AB两个亚型的差异基因,在GSEA富集分析中,结果按照富集分数排序。通常情况下,富集分数为正最大的前几个表示在A亚型中富集的集中的通路,而富集分数负值最大的几个表示在B亚型中富集的集中的通路。 需要注意的是,富集分数的正负并不代表富集的方向,而是表示富集程度的大小。因此,正值最大的前几个通路表示在A亚型中富集程度最高的通路,负值最大的几个通路表示在B亚型中富集程度最高的通路。 这样的排序方式可以帮助我们理解不同亚型或条件下基因集的富集模式,以及与这些通路相关的生物学过程和功能。

#进行绘图
gseaplot2(KEGG_ges, row.names(sortKEGG_ges)[1:5])##可以自行选择通路

dev.off()
#个性化展示(选取结果中的ID)
p1 <- gseaplot2(KEGG_ges,geneSetID = c("hsa03030","hsa03050","hsa04710","hsa00350"),#通路color = c("#003399", "#FFFF00", "#FF6600","black"),#颜色pvalue_table = TRUE,#显示P值ES_geom = "line")#"dot"将线转换为点
p1

GSEA_GO富集分析

主要是函数的不同 gseGO 函数

#GSEA
rm(list = ls()) 
library(DOSE)##包里有测试数据
library(clusterProfiler)
require(enrichplot)
options(stringsAsFactors = F)##数据集查看和整理
data(geneList, package = "DOSE")
head(geneList)##GSEA_GO富集分析:
GO_ges <- gseGO(geneList = geneList,OrgDb = "org.Hs.eg.db",ont = "CC", #one of "BP", "MF", and "CC" subontologies, or "ALL" for all three.minGSSize = 10,maxGSSize = 500,pvalueCutoff = 0.05,eps = 0,verbose = FALSE)
#res <- GO_ges@result
res1<-GO_ges[order(GO_ges$enrichmentScore, decreasing = T),]
DO数据库GSEA

需要library(DOSE)   DO(Disease Ontology)数据库GSEA

#GSEA
rm(list = ls()) 
library(DOSE)##包里有测试数据
library(clusterProfiler)
require(enrichplot)
options(stringsAsFactors = F)##数据集查看和整理
data(geneList, package = "DOSE")
head(geneList)##GSEA_DO(Disease Ontology)富集分析:
DO_ges <- gseDO(geneList,minGSSize = 10,maxGSSize = 500,pvalueCutoff = 0.05,pAdjustMethod = "BH",verbose = FALSE,eps = 0)#res <- DO_ges@result
res1<-DO_ges[order(DO_ges$enrichmentScore, decreasing = T),]
MSigDB数据库选取GSEA

msigdf + clusterProfiler全方位支持MSigDb (guangchuangyu.github.io)

Q&A | 如何使用clusterProfiler对MSigDB数据库进行富集分析 - 知乎 (zhihu.com)

#GSEA
rm(list = ls()) 
library(DOSE)##包里有测试数据
library(clusterProfiler)
require(enrichplot)
library(msigdbr)
options(stringsAsFactors = F)##数据集查看和整理
data(geneList, package = "DOSE")
head(geneList)##msigdbr 提取注释自己所需的注释基因集
H <- msigdbr(species = "Homo sapiens", category = "H") %>% dplyr::select(gs_name, entrez_gene)#C2all <- msigdbr(species = "Homo sapiens", 
#              category = "H")#完整的注释##富集分析
H_ges <- GSEA(geneList,TERM2GENE = H,##注释基因集minGSSize = 10,maxGSSize = 500,pvalueCutoff = 0.05,pAdjustMethod = "BH",verbose = FALSE,eps = 0)#res <- H_ges@result
res1<-H_ges[order(H_ges$enrichmentScore, decreasing = T),]

KEGG

KEGG富集分析及可视化,一把子拿捏! (qq.com)

RNA 10. SCI 文章中基因表达富集之 KEGG 注释_kegg中qvalue_桓峰基因的博客-CSDN博客

  在线KEGGDAVID Functional Annotation Bioinformatics Microarray Analysis (ncifcrf.gov)

DAVID 在线数据库进行 GO/ KEGG 富集分析_david数据库go富集分析-CSDN博客

1:运行
##差异基因KEGG富集分析
rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
library(dplyr)#数据清洗
library(org.Hs.eg.db)#ID转换
library(clusterProfiler)#富集分析
library(ggplot2)#绘图
library(RColorBrewer)#配色调整
library(DOSE)##包里有测试数据data(geneList, package = "DOSE")
head(geneList)
df <- as.data.frame(geneList)##查看:还原gene symbol
df$ENTREZID <- rownames(df)
#?bitr 函数查看
df1<-bitr(df$ENTREZID, #转换的列是df数据框中的SYMBOL列fromType = "ENTREZID",#需要转换ID类型toType = "SYMBOL",#转换成的ID类型OrgDb = "org.Hs.eg.db")#物种选择(小鼠的是org.Mm.eg.db)
df2<-merge(df,df1,by="ENTREZID",all=F)##进行合并##选择logFC>1.5的基因:我们以这个筛选的差异基因集为input测试
df3 <- df2[abs(df2$geneList)>1.5,]##abs() 表示绝对值
##自己使用时进行自定义KEGG_diff <- enrichKEGG(gene = df3$ENTREZID,organism = "hsa",#物种,Homo sapiens (human)pvalueCutoff = 0.05,qvalueCutoff = 0.05)KEGG_result <- KEGG_diff@result#保存富集结果:
save(KEGG_diff,KEGG_result,file = c("KEGG_diff.Rdata"))
#write.csv(KEGG_result,file = "KEGG_result.csv")

ID:pathway的ID名;GeneRatio:差异基因中富集到该pathway的基因数目/富集到所有pathway的总差异基因数目;BgRatio:所有背景基因中富集到该pathway的基因数目/总背景基因数目;

Count:富集到该pathway的基因数目

2:绘图
bar图
#绘图
library(enrichplot)
library(stringr)
library(cowplot)
library(ggplot2)
barplot(KEGG_diff,x = "Count", #or "GeneRatio"color = "pvalue", #or "p.adjust" and "qvalue"showCategory = 20,#显示前top20font.size = 12,title = "KEGG enrichment barplot",label_format = 30 #超过30个字符串换行
)

气泡图
dotplot(KEGG_diff,x = "GeneRatio",color = "p.adjust",title = "Top 20 of Pathway Enrichment",showCategory = 20,label_format = 30
)

绘图美化
#将pathway按照p值排列
KEGG_top20 <- KEGG_result[1:20,]
KEGG_top20$pathway <- factor(KEGG_top20$Description,levels = rev(KEGG_top20$Description))
p2 <- ggplot(data = KEGG_top20,aes(x = Count,y = pathway))+geom_point(aes(size = Count,color = -log10(pvalue)))+ # 气泡大小及颜色设置theme_bw()+scale_color_distiller(palette = "Spectral",direction = 1) +labs(x = "Gene Number",y = "",title = "Dotplot of Enriched KEGG Pathways",size = "Count")
p2

GO

GO富集分析及可视化,一把子拿捏! (qq.com)

【精选】RNA 9. SCI 文章中基因表达之 GO 注释_consider increasing max.overlaps_桓峰基因的博客-CSDN博客

就是函数的差别

GO_MF_diff <- enrichGO(gene = diff_entrez$ENTREZID, #用来富集的差异基因
OrgDb = org.Hs.eg.db, #指定包含该物种注释信息的org包
ont = "MF", #可以三选一分别富集,或者"ALL"合并
pAdjustMethod = "BH", #多重假设检验矫正方法
pvalueCutoff = 0.05,
qvalueCutoff = 0.05,
readable = TRUE) #是否将gene ID映射到gene name
#提取结果表格:
GO_MF_result <- GO_MF_diff@result
View(GO_MF_result)

感谢上面的许多教程:更详细的大家可以去学习!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/192687.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网络通信】探索UDP与TCP协议、IP地址和端口号的奥妙

&#x1f33a;个人主页&#xff1a;Dawn黎明开始 &#x1f380;系列专栏&#xff1a;网络奇幻之旅 ⭐每日一句&#xff1a;往前走&#xff0c;朝着光 &#x1f4e2;欢迎大家&#xff1a;关注&#x1f50d;点赞&#x1f44d;评论&#x1f4dd;收藏⭐️ 文章目录 &#x1f4cb;前…

4.2 Windows驱动开发:内核中进程线程与模块

内核进程线程和模块是操作系统内核中非常重要的概念。它们是操作系统的核心部分&#xff0c;用于管理系统资源和处理系统请求。在驱动安全开发中&#xff0c;理解内核进程线程和模块的概念对于编写安全的内核驱动程序至关重要。 内核进程是在操作系统内核中运行的程序。每个进…

可燃气体监测仪|燃气管网监测解决办法

可燃气体监测仪是城市生命线中&#xff0c;燃气监测运行系统的前端监测设备&#xff0c;其主要作用是对燃气管网的安全状况进行实时监测。燃气管道在使用过程中&#xff0c;由于老化、裂纹、锈蚀等问题&#xff0c;容易导致燃气出现泄漏问题&#xff0c;从而引发一系列的安全事…

MySQL/Oracle用逗号分割的id怎么实现in (逗号分割的id字符串)。find_in_set(`id`, ‘1,2,3‘) 函数,

1.MySQL 1.1.正确写法 select * from student where find_in_set(s_id, 1,2,3); 1.2.错误示范 select * from student where find_in_set(s_id, 1,2 ,3); -- 注意&#xff0c;中间不能有空格。1、3 select * from student where find_in_set(s_id, 1,2, 3); -- 注意…

leetcode系列(双语)003——GO无重复字符的最长子串

文章目录 003、Longest Substring Without Repeating Characters个人解题官方解题扩展 003、Longest Substring Without Repeating Characters 无重复字符的最长子串 Given a string s, find the length of the longest substring without repeating characters. 给定一个字符…

解决:ERROR: No matching distribution found for PIL

解决&#xff1a;ERROR: No matching distribution found for PIL 背景 在搭建之前的代码环境时&#xff0c;报错&#xff1a; ERROR: Could not find a wersion that satisfies the requirement PIL&#xff08;from versions: none&#xff09; ERROR: No matching distribu…

wpf devexpress 创建布局

模板解决方案 例子是一个演示连接数据库连接程序。打开RegistrationForm.BaseProject项目和如下步骤 RegistrationForm.Lesson1 项目包含结果 审查Form设计 使用LayoutControl套件创建混合控件和布局 LayoutControl套件包含三个主控件&#xff1a; LayoutControl - 根布局…

【机器学习算法】机器学习:支持向量机(SVM)

转载自&#xff1a; 【精选】机器学习&#xff1a;支持向量机&#xff08;SVM&#xff09;-CSDN博客 1.概述 1.1&#xff0c;概念 支持向量机&#xff08;SVM&#xff09;是一类按监督学习方式对数据进行二元分类的广义线性分类器&#xff0c;其决策边界是对学习样本求解的最…

WordPress主题WoodMart v7.3.2 WooCommerce主题和谐汉化版下载

WordPress主题WoodMart v7.3.2 WooCommerce主题和谐汉化版下载 WoodMart是一款出色的WooCommerce商店主题&#xff0c;它不仅提供强大的电子商务功能&#xff0c;还与流行的Elementor页面编辑器插件完美兼容。 主题文件在WoodMart Theme/woodmart.7.3.2.zip&#xff0c;核心在P…

公共字段自动填充-Mybatis Plus实现

简历描述 使用ThreadLocal动态获取当前登录用户&#xff0c;从而解决MybatisPlus公共字段自动填充问题。达到简化编码的目的&#xff0c;使业务方法更加简洁。 问题分析 前面我们已经完成了后台系统的员工管理功能的开发&#xff0c;在新增员工时需要设置创建时间、创建人、…

每天一点python——day69

#字符串的比较操作使用的符号&#xff1a; >[大于]&#xff0c;>[大于等于]&#xff0c;<[小于]&#xff0c;<[小于等于]&#xff0c;[等于]&#xff0c;![不等于]#如图&#xff1a; #例子&#xff1a;比较原理释义&#xff1a;每个字符在计算机里面都有一个原始值…

基于STM32的多组外部中断(EXTI)的优化策略与应用

在某些嵌入式应用中&#xff0c;可能需要同时处理多个外部中断事件。STM32系列微控制器提供了多组外部中断线&#xff08;EXTI Line&#xff09;&#xff0c;可以同时配置和使用多个GPIO引脚作为外部中断触发器。为了有效管理和处理多组外部中断&#xff0c;我们可以采取一些优…

【c++】——类和对象(中)——实现完整的日期类(优化)万字详细解疑答惑

作者:chlorine 专栏:c专栏 赋值运算符重载()()():实现完整的日期类(上) 我走的很慢&#xff0c;但我从不后退。 【学习目标】 日期(- - --)天数重载运算符 日期-日期 返回天数 对日期类函数进行优化(不符合常理的日期&#xff0c;负数&#xff0c;const成员)c中重载输入cin和输…

python趣味编程-5分钟实现一个益智数独游戏(含源码、步骤讲解)

Puzzle Game In Python是用 Python 编程语言Puzzle Game Code In Python编写的,有一个 4*4 的棋盘,有 15 个数字。然后将数字随机洗牌。 在本教程中,我将教您如何使用Python 创建记忆谜题游戏。 Python Puzzle Game游戏需要遵循以下步骤,首先是将图块数量移动到空的图块空…

机器视觉系统选型-定光照强度

同一个外形结构的光源&#xff0c;光照强度受如下影响&#xff1a; 单颗灯珠的亮度灯珠排列的数量和密度漫射板/防护板的材质&#xff08;透明、半透明、全漫射&#xff09; 在合理范围内提升光照强度&#xff0c;可降低对相机曝光时长的要求 外形结构尺寸相同的两款光源&am…

uni-app(1)pages. json和tabBar

第一步 在HBuilderX中新建项目 填写项目名称、确定目录、选择模板、选择Vue版本&#xff1a;3、点击创建 第二步 配置pages.json文件 pages.json是一个非常重要的配置文件&#xff0c;它用于配置小程序的页面路径、窗口表现、导航条样式等信息。 右键点击pages&#xff0c;按…

【C++入门到精通】右值引用 | 完美转发 C++11 [ C++入门 ]

阅读导航 引言一、左值引用和右值引用1. 什么是左值&#xff1f;什么是左值引用&#xff1f;2. 什么是右值&#xff1f;什么是右值引用&#xff1f;3. move( )函数 二、左值引用与右值引用比较三、右值引用使用场景和意义四、完美转发std::forward 函数完美转发实际中的使用场景…

Spring Boot - filter 的顺序

定义过滤器的执行顺序 1、第一个过滤器 import javax.servlet.Filter; import javax.servlet.FilterChain; import javax.servlet.FilterConfig; import javax.servlet.ServletException; import javax.servlet.ServletRequest; import javax.servlet.ServletResponse; impor…

LeetCode【4】寻找两个正序数组中位数

题目&#xff1a; 思路&#xff1a; https://blog.csdn.net/a1111116/article/details/115033098 代码&#xff1a; public double findMedianSortedArrays(int[] nums1, int[] nums2) {int[] ints Arrays.copyOf(nums1, nums1.length nums2.length);System.arraycopy(nums2…

gRPC 四模式之 双向流RPC模式

双向流RPC模式 在双向流 RPC 模式中&#xff0c;客户端以消息流的形式发送请求到服务器端&#xff0c;服务器端也以消息流的形式进行响应。调用必须由客户端发起&#xff0c;但在此之后&#xff0c;通信完全基于 gRPC 客户端和服务器端的应用程序逻辑。 为什么有了双向流模式…