单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分

单细胞RNA测序(scRNA-seq)入门可查看以下文章:

单细胞RNA测序(scRNA-seq)工作流程入门

单细胞RNA测序(scRNA-seq)细胞分离与扩增

1. NCBI查询scRNA-seq SRA数据

NCBI地址: https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA484204&o=acc_s%3Aa

点击Accession List下载包含SRR*编号信息的文本文件 - SRR_Acc_List.txt。
NCBI SRA数据SRR_Acc_List.txt文件内容
SRR_Acc_List.txt

2. 批量下载SRA数据与 fastq-dumq拆分SRA为fastq文件

10X单细胞数据相对比较复杂,其测序文库中包括indexbarcodeUMI测序reads。因此需要对SRA文件进行拆分以获取上述文件,拆分需要使用fastq-dump软件,为sra-tool工具中的软件之一。

** fastq-dumq**使用–split-files来替代–split-3 ,就可以生成3个文件。第1个文件的所有序列都是8bp,第2个文件26bp,第3个文件91bp,判断第3个文件时包含测序reads的文件。

prefetch 软件安装可参考以下文章:
prefetch软件安装

# conda安装
conda install -c bioconda sra-tools ######## 单个SRR数据下载与拆分(测试) ######## 
prefetch SRR7692286# 后台下载
# nohup prefetch SRR7692286 &# fastq-dump为-A为指定文件名, --gzip为输出.gz压缩文件
fastq-dump --gzip --split-files -A SRR7692286 SRR7692286.sra# 拆分sra文件, fastq-dump拆分报错,可尝试使用fasterq-dump
# fasterq-dump --split-files -A SRR7692286 SRR7692286.sra######## 批量SRR数据下载与拆分 ######## 
# 根据SRR_Acc_List.txt批量下载,nohup为后台下载
prefetch --option-file SRR_Acc_List.txt# 后台下载
# nohup  prefetch --option-file SRR_Acc_List.txt &# 批量拆分sra文件为fastq.gz
cat SRR_Acc_List.txt|while read srr; do (fastq-dump --gzip --split-files -A $srr ${srr}.sra); done

下载截图

4. 了解10X文库组成

R1: 26 表示10X barcode 的 16bp碱基 + 10bp UMI;
i7: 8表示 8bp 样本index序列
Read 2: 98 中星号符号表示长度不固定。

4.1 i7 sample index的作用?

i7 sample index(library barcode)是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。不同的项目index不同,但在96孔板的每个孔中都加入了4种不同的index oligos混合,其作用就是在CellRanger mkfastq 功能(BCL转fastq)中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起表示同一个样本,从而保证了一个测序lane上可以容纳多个样本。
10X文库组成示意图

4.2 10X Barcode(Cell barcode)的作用?

10X Barcode(Cell barcode)是10X数据特有的,用来区分GEMs,可对细胞做了一个标记。

4.3 UMI的作用?

在scRNA测序中需要进行PCR扩增, 一些转录本会被扩增多次,超过了其真实的表达量。当起始文库DNA量很小时,在进行多次PCR扩增中,引入的误差会随着扩增次数的增加而增加。

UMI - Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量(重点)。

UMI用于PCR扩增校正mRNA数量示意图对UMI的要求:

  1. 不能是均聚物 ,如AAAAAAAAAA
  2. 不能有N碱基
  3. 不能包含碱基质量低于10的碱基

4.4 简而言之

Library Barcode (Sample Index) : 使用样本index序列进行多样本拆分
10x Barcode(Cell Barcode ): 用来区分细胞reads的来源
Unique Molecular Index (UMI) : 用来校正PCR扩增引起mRNA数量统计的偏差
Sequencing Reads : 用来识别基因的reads

5. fastq文件重命名

参考以下命名要求,对SRA拆分获得的样本fastq.gz文件进行重命名。

10X官网数据命令规范

# 批量重命名
cat SRR_Acc_List.txt| whilre read srr;do \
(mv ${srr}_1*.gz ${srr}_S1_L001_I1_001.fastq.gz; \
mv ${srr}_2*.gz ${srr}_S1_L001_R1_001.fastq.gz; \
mv ${srr}_3*.gz ${srr}_S1_L001_R2_001.fastq.gz);done

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/593721.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【React】React18+Typescript+craco配置最小化批量引入Svg并应用的组件

React18Typescriptcraco配置最小化批量引入Svg并应用的组件 前言创建React Typescript项目通过require.context实现批量引入Svg安装[types/webpack-env](https://github.com/DefinitelyTyped/DefinitelyTyped/blob/master/README.zh-Hans.md)解决类型报错安装[craco](https://…

力扣---旋转链表

给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置。 示例 1: 输入:head [1,2,3,4,5], k 2 输出:[4,5,1,2,3]示例 2: 输入:head [0,1,2], k 4 输出:[2,0,1…

如何将本地仓库放到远程仓库中

在我们仓库创建好之后&#xff0c;我们复制好ssh 接着我们需要使用git remote add<shortname><url>这个命令 shortname就是我们远程仓库的别名 接着使用git remote -v这个命令查看一下目前远程仓库的别名和地址 原本还有一个指令git branch -M main 指定分支的名…

鸿蒙开发第一课-工具与HelloWorld

武汉数字人才实训基地 一、初始HarmonyOS以及DevEco Studio 2023年8月4日&#xff0c;HarmonyOS 4.0操作系统正式发布。华为鸿蒙Next&#xff08;HarmonyOS Next&#xff09;操作系统开发者预览版(Developer Preview)发布。超过7亿台设备搭载了HarmonyOS 系统 2024年&#xf…

基于java web的超市管理系统

摘要 随着社会经济的不断发展&#xff0c;人们的生活水平不断提高。越来越多的零售行业得到了快速的发展&#xff0c;以最常见的超市最为明显。零售行业繁荣的背后也随之带来了许多行业隐患&#xff0c;越来越激烈的行业竞争不断的要求经营者更加高要求的管理超市内部的整个供…

“医”探究竟 | 骨科检查X光片、CT、核磁共振到底有什么区别?

在门诊经常碰到一些患者搞不清楚 X光、CT、核磁共振这些影像学检查&#xff0c; 到底有什么区别&#xff1f; 用作什么部位检查&#xff1f; 还有&#xff0c; 为什么有时照了X光&#xff0c;还要再做CT&#xff1f; 医生让我做那么昂贵的核磁共振&#xff0c; 莫不是想赚…

如何打包一个手机软件

目录 前言&#xff1a; 准备工具&#xff1a; 创建项目&#xff1a; 打包程序&#xff1a; 前言&#xff1a; 我们平时手机上使用的程序&#xff0c;或者电脑上使用的程序都可以由Web程序打包而来的&#xff0c;而打包不是一个.html文件也不是一个.js文件而是一个大型的文…

【蓝桥杯嵌入式】六、真题演练(二)-1研究篇:第 13 届真题-第二部分

温馨提示&#xff1a; 真题演练分为模拟篇和研究篇。本专栏的主要作用是记录我的备赛过程&#xff0c;我打算先自己做一遍&#xff0c;把遇到的问题和不同之处记录到演练篇&#xff0c;然后再返回来仔细研究一下&#xff0c;找到最佳的解题方法记录到研究篇。题目在&#xff1a…

Python环境搭建—安装Pycharm开发工具

&#x1f947;作者简介&#xff1a;CSDN内容合伙人、新星计划第三季Python赛道Top1 &#x1f525;本文已收录于Python系列专栏&#xff1a; 零基础学Python &#x1f4ac;订阅专栏后可私信博主进入Python学习交流群&#xff0c;进群可领取Python视频教程以及Python相关电子书合…

蓝桥杯备考3

P8196 [传智杯 #4 决赛] 三元组 题目描述 给定一个长度为 n 的数列 a&#xff0c;对于一个有序整数三元组 (i,j,k)&#xff0c;若其满足 1≤i≤j≤k≤n 并且&#xff0c;则我们称这个三元组是「传智的」。 现在请你计算&#xff0c;有多少有序整数三元组是传智的。 输入格式…

聚类算法 | Kmeans:肘方法、Kmeans++、轮廓系数 | DBSCAN

目录 一. 聚类算法划分方式1. 划分式2. 层次式3. 基于密度4. 基于网络5. 基于模型 二. K-means算法1. K-means算法公式表达2. K-means算法流程3. Kmeans算法缺点3.1 肘方法3.2 k-means 算法3.2.1 k-means|| 算法 3.3 Mini Batch K-Means 算法 4. 聚类评估 三. DBSCAN算法1. DBS…

团体程序设计天梯赛-练习集 01

天梯赛题解合集 团体程序设计天梯赛-练习集 (L1-001 - L1-012) 团体程序设计天梯赛-练习集 (L1-013 - L1-024) 团体程序设计天梯赛-练习集 (L1-025 - L1-036) 团体程序设计天梯赛-练习集 (L1-037 - L1-048) L1-001 Hello World 输出题 样例 输入 输出 Hello World!思…