gwas数据获取如何获取完整的GWAS summary数据(1)------GWAS catalog数据库

IEU OpenGWAS project (mrcieu.ac.uk)

UK Biobank - UK Biobank

GWAS Catalog 

在孟德尔随机化(Mendelian randomization,MR)研究中,对于暴露数据我们只需要那些显著的SNP信息,这样的信息在各种GWAS数据库中都是很容易获取的。但是,关于结局的数据,由于需要SNP和结局不相关,所以很多时候这种不显著的结果无法直接从文章或者数据库中查询到,这时候我们需要下载完整的GWAS summary数据了,这种数据一般包含上百万乃至上千万的SNP信息,所以数据量比较大(压缩后在200M左右),希望大家有所认识,有所准备。

接下来,我将介绍如何从GWAS catalog下载完整的GWAS summary 数据

首先,进入GWAS catalog的官网(https://www.ebi.ac.uk/gwas/),点击Summary statistics(如下图所示)

进入Summary statistics后点击Available studies(如下图所示)

最后,你将进入如下界面(链接:https://www.ebi.ac.uk/gwas/downloads/summary-statistics)

该界面主要由三部分组成

第一块是 “List of published studies with summary statistics“(如下图所示):这里的GWAS研究都是已经发表的,质量有保证,你可以在检索框(红色标记处)里输入关键词检索感兴趣的表型。

第二块是 “List of prepublished/unpublished studies with summary statistics“(如下图所示):这里的GWAS研究是未发表见刊的(可能是来源于预印本),质量无法保证,你可以在检索框(红色标记处)里输入关键词检索感兴趣的表型。这里的表型可能会比较新,是对已发表数据的补充。当你实在找不到数据时,不妨来这里试试。

第三块是“Additional sources of summary statistics“(如下图所示):这里整理汇总了目前GWAS研究协作体(consortium)的相关信息。一般这些协作体会建有自己的网站来存储数据,我们可以到它们的官网上下载完整的GWAS summary 数据。图中用红色标记的是冠心病研究的协作体。

GWAS catalog数据库是一个宝藏,米老鼠在这里抛砖引玉,希望大家能更深入地研究利用它,也欢迎私信交流你的idea(微信:MedGen16)!

PS: GWAS catalog有时候需要开国外代理模式才能使用,小伙伴们提前准备好哈!

ssgac

获取gwas的来源

包含的数据

 

1 读取exposure数据

1.2 保存exposureshuju

开始实操

读取暴露数据

读取结局数据

harmonize data 

mr

敏感性分析 

 显著且相互独立,获取工具变量

 优点就是快,缺点就是有可能

可能不相互独立 连锁不平衡

5 * 10 -8

说明工具变量与暴露相关   与结局不相关。

可能丢掉了snp

step1 r读取暴露数据

 需要相关性设置 subset函数   5*10 -8

独立性设置     clump函数   去除连锁不平衡   ld r2越小越好,通常0.001 最大0.1.   

取决于snp数     distance 500kb也可以

统计强度设置  f>10较好

 1.1  需要相关性设置 subset函数   5*10 -8

1.2修改文件的列名

1.3 独立性设置 重新读取subset之后的暴露数据read_exposure_data

clump默认  ldr2<0.01

可以之后再clump  clump_data

 step2 读取outcomedata

1 read.table 

2 merge 取交集

2.1 改列名

3 read_out_come_data

小结

 效应等位基因

 需要使用代码协调 A--.>T

代理snp

代理snp 设置为0.8  越大越说明他们之间存在连锁不平衡 说明他们之间相互影响大  他们互相替代的可能性就高

但是独立性设置时候要让ld r2尽可能小0.001

样本重叠了

暴露数据 50w 

结局数据 100w

snp数据必须大于500w才能用  正常可达1000w

step3协调 harmonise

剔除回文序列 

保存文件

 确保暴露的snp与结局不相关

snp与暴露要相关

snp与结局不相关  符合假设

step4 mr

ivw为随机效应模型

结局为连续变量使用 beta值  以0 为界

结局为分类变量时候 ,需要对数转化,使用or 以1为界

使用其他方法

mr(dat,method_list=c())

 画散点图时,选择想要的方法画图

5 结果可视化

6 敏感性分析包括:异质性检测  多效性检测 

异质性检测

异质性《0.05 则存在异质性,

有异质性,对结果的可靠性不影响

nbdistribution 设置为1w,更准确

6.1 找出对异质性影响最大的snp run_mr_pressor

nb

 

这个离群值对方向是否有影响  没影响则p>0.05 

l列出离群值  p小于0.05  则说明存在异质性

如果异质性很多,及时扔到几个snp,重新计算还是会有异质性的

6.2 异质性可视化funnel plot

越对称 越好 

也会存在  ;即使不存在异质性  漏斗图也不对称

6.2 多效应 mr_pleiotropy_test()  结果不好就撤退,文章发不了

功能多效性 水平多效性

比如 snp可能通过别的表型作用于ad,而不是通过bmi这个表型来作用域ad

 0.078》0.05 没有多效性

使用egger_intercept来评估多效应

egger与y轴的截距 p值是来评估截距是否存在

如果p》0.05 ,则没有显著性,说明截距不存在

如果p《0.05,则有显著性。表明当snp为0时,对outcome存在非0的效应,说明snp可能通过影响其他表型来对结局产生影响。说明存在水平多效性。 这样的结果就不能使用

(snp对暴露的影响为0时,对结局仍产生非0影响,说明存在其他的中间因素来影响结局,具有水平多效性)

6.3 leave-one-out 

如果结果比较好,置信区间都应该再虚线的右边 

丢第第一个rs3817334时,剩下的snp再去做

总结

使用r来分析

1 提取暴露数据 

2 导入结局数据 

 

后续都一样 

筛查snp的第二表型 如果存在第二表型 就要可能需要筛掉它

7 统计学效能计算 power

sample size 是总样本量

 a默认0.05

k 病例数所占总数的比例

or值为计算出来的值

  r2 是所有snp(60个)的r2加起来的值  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/214749.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023年亚太杯数学建模A题水果采摘机器人的图像识别功能(基于yolov5的苹果分割)

注&#xff1a;.题中附录并没有给出苹果的标签集&#xff0c;所以需要我们自己通过前4问得到训练的标签集&#xff0c;采用的是yolov5 7.0 版本&#xff0c;该版本带分割功能 一&#xff1a;关于数据集的制作&#xff1a; clc; close all; clear; %-----这个是生成yolov5 数据…

UNETR++:深入研究高效和准确的3D医学图像分割

论文&#xff1a;https://arxiv.org/abs/2212.04497 代码&#xff1a;GitHub - Amshaker/unetr_plus_plus: UNETR: Delving into Efficient and Accurate 3D Medical Image Segmentation 机构&#xff1a;Mohamed Bin Zayed University of Artificial Intelligence1, Univers…

新手骑友的勇气和胆量:货拉拉

在骑行圈里&#xff0c;有一群跃跃欲试的新手骑友。他们面对陌生的路况、复杂的交通和未知的危险&#xff0c;距离的远近&#xff0c;心生胆怯&#xff0c;犯了最大的错误“不出发”。今天&#xff0c;让我们一起走进他们的世界&#xff0c;了解货拉拉为新手骑友解决这些痛点的…

系列二、IOC DI

一、IOC 1.1、概述 IOC的中文意思是控制反转&#xff0c;通俗地讲就是把创建对象的控制权交给Spring去管理&#xff0c;以前是由程序员自己去创建、控制对象&#xff0c;现在交由Spring去创建对象 & 管理对象&#xff08;维系对象之间的关系&#xff09;&#xff0c;使用I…

NVMe-oF E-JBOF设计解析:WD RapidFlex网卡、OpenFlex Data24

OpenFlex Data24 NVMe-oF Storage Platform WD的SN840 NVMeSSD新品并没有太吸引我注意&#xff0c;因为它还是PCIe 3.0接口的&#xff0c;要知道Intel的PCIe 4.0 SSD都已经推出了。 但上面这个NVMe-oF&#xff08;NVMe over Fabric&#xff09;EBOF&#xff08;区别于普通JBO…

搭建Angular并引入NG-ZORRO组件库

作者&#xff1a;baekpcyyy&#x1f41f; 1.安装node.js 注&#xff1a;安装 16.0 或更高版本的 Node.js node官网&#xff1a;https://nodejs.org/en 2.进入angular官网 https://angular.cn/guide/setup-local 新建一个文件夹 vsc打开 打开终端 1.首先安装angular手脚架…

移动应用程序管理的内容、原因和方式

移动应用程序管理&#xff08;MAM&#xff09;是一个术语&#xff0c;指的是管理应用程序的整个生命周期&#xff0c;包括从设备安装、更新和卸载应用程序&#xff0c;除了在整个生命周期内管理设备外&#xff0c;MAM 还包括保护应用访问的数据&#xff0c;以及在设备上发现恶意…

深入理解数据结构:队列的实现及其应用场景

文章目录 &#x1f342;前言&#x1f342;队列的基本概念和特性&#x1f342;队列的实现方式️&#x1f331;顺序队列️&#x1f331;链式队列 &#x1f342;队列的基本操作及示例代码️&#x1f951;创建队列️&#x1f951;判空操作️&#x1f951;入队操作️&#x1f951;出…

docker容器与宿主机时间同步

前言 在Docker容器创建好之后&#xff0c;可能会发现容器时间跟宿主机时间不一致&#xff0c;此时需要同步它们的时间&#xff0c;让容器时间跟宿主机时间保持一致。 一、分析时间不一致的原因 宿主机采用了CST时区&#xff0c;CST应该是指&#xff08;China Shanghai Time&…

JAVA线程池原理详解

线程池的优点 1、线程是稀缺资源&#xff0c;使用线程池可以减少创建和销毁线程的次数&#xff0c;每个工作线程都可以重复使用。 2、可以根据系统的承受能力&#xff0c;调整线程池中工作线程的数量&#xff0c;防止因为消耗过多内存导致服务器崩溃。 线程池的创建 public…

AIDL 如何分片传输大量 Parcelable 数据列表

本文针对 AIDL 跨进程传输大量 Parcelable 数据所产生的问题总结出一套分片传输的解决方案&#xff0c;并分析了一下其实现的原理。 1. 概述 大家在通过 AIDL 实现跨进程数据传输的时候&#xff0c;可能会遇到数据量过大导致异常的情况&#xff0c;通常抛出的异常如下&#xf…

如何去掉图片水印不伤原图?无痕去水印教程分享!

如何去掉图片水印不伤原图&#xff1f;在电商广告设计和营销领域&#xff0c;水印已经成为一种常见的版权保护手段。不过&#xff0c;水印也给淘宝商家带来了一些困扰。那么如何去掉图片水印还能不伤原图呢&#xff0c;接下来&#xff0c;将分享简单好用的无痕去水印教程&#…