【 10X summary report】怎么看?详细解读笔记

报告内容

在开始正式的分析之前,需要查看在对齐和计数过程中生成的任何总结统计信息。下图是由Cell Ranger工具创建的10X总结报告,在从10X scRNA-seq实验生成计数矩阵时会生成。

 The left half of the report describes sequencing and mapping statistics. One thing to note is the “sequencing saturation”, which estimates the proportion of mRNA transcripts that has been sequenced. This is calculated by downsampling the mean number of reads per cell and obtaining the corresponding number of UMIs (nUMI). The relationship between the number of UMIs obtained against the number of reads is then extrapolated to the asymptote, which corresponds to 100% saturation. A low sequencing saturation implies that deeper sequencing will likely recover more UMIs. That said, some preliminary analysis should first be performed to determine if the current number of UMIs recovered is able to answer the biological questions of interest. Also, check that a high percentage of reads are mapped to the genome, which indicates low amounts of contamination.

The top-right portion of the report plots the nUMI captured in each droplet / barcode, with the droplets ordered in decreasing nUMI from left to right. On the left side of the plot, droplets have very high nUMI and are likely to contain cells. As we scan through the droplets towards the right, we eventually encounter a “knee point” where there is a drastic drop in the nUMI. This likely signifies a transition from observing cell-containing droplets to droplets containing cell debris or no cells at all. Droplets that are deemed by Cell Ranger to contain cells are coloured blue here and the algorithm tends to include slightly more cells beyond the plot shoulder. These cells with smaller nUMIs will have to be removed in the quality control step.

From the summary report, there is another important observation: the nUMI does not correspond to the number of reads per cell. Recall that this is because reads with the same UMI originated from a single mRNA molecule and is thus treated as a single UMI count . Thus, the number of counts i.e. nUMI is usually only a fraction (about 1/8 to 1/3) of the number of reads.

 下图为本人使用CellRanger V5.2.0对语一个单细胞数据跑出的结果

报告解读

细胞和基因数目的评估

  1. Estimated number of cells - 样本测到的细胞数
  2. Mean reads per cell - 每个细胞测到的平均reads
  3. Median genes per cell - 每个细胞基因数的中位数

Sequencing中

Number of reads - 测到的总read数目

Valid barcodes - UMI校正后匹配的UMI数量

Sequencing saturation:测序饱和度。一般60-80%比较合适(阈值范围可以适当调整,但是高于70%或80%左右绝对OK)。如果测到的细胞数多,但是每个细胞里面的平均reads数少,那么饱和度就不高,反之,饱和度高。但也不是越高越好,背后原理是抽样的原理,到达80%左右就可以代表整个样本了。

Q30 bases in barcode - 基于barcode的分数,大于30的比率

Q30 bases in RNA read - 基于RNA read的分数,大于30的比率

Q30 bases in UMI - 基于UMI的分数,大于30的比率

认为要一般要大于65%,少于这个比例的话,这个页面会报错,

Mapping结果

  1. Reads mapped to genome - 比对到选定基因组的reads
  2. Reands mapped confidently to genome - 仅仅比对到基因组的reads,如果一条reads既可以比对到外显子区又可以比对到非外显子区,那么算比对到了其中一个外显子区
  3. Reads mapped confidently to intergenic regions - 比对到基因组的基因间区域
  4. Reads mapped confidently to intronic regions - 比对到内含子区域
  5. Reads mapped confidently to exonic regions - 比对到外显子区域
  6. Reads mapped confidently to transcriptome - 比对到转录组的reads,这些读数可以用来UMI的计数
  7. Reads mapped antisense to gene - 比对到基因的相反的reads

细胞数目评估Cells图

横轴是barcodes,纵轴是UMI数量。通过barcode上的UMI标签分布来评估细胞数目,深蓝色代表细胞,灰色代表背景。

在前期磁珠(bead)与细胞形成油包水的结构过程中,会存在没有把细胞包进去的情况,这时候的油包水结构里面就只有磁珠和一些barcode的序列,而cDNA的碱基序列一般都是barcode碱基序列的10倍以上,就是由此来确定哪些是真实的细胞,哪些是background。

其他指标

  1. Estimated number of cells - 样本测到的细胞数
  2. Fraction reads in cells - valid-UMI的质量分数,代表与细胞相关的UMI可靠地比对到基因组,一般要在70%及以上,否则数据质量就不好
  3. Mean reads per cell - 每个细胞测到的平均reads
  4. Median genes per cell - 每个细胞的基因数中位数
  5. Total genes detected - 测到的总基因数,至少有一条UMI
  6. Median UMI counts per cell - 细胞UMI数量的中间值

饱和度评估

  1. 对reads抽样,观察不同抽样条件下检测到的转录本数量占检测到的所有转录本的比例。(如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,覆盖到的转录本数目也不会变化太多。)
  2. 对reads抽样,观察不同测序数据量情况下检测到的基因数目的分布。(如果曲线末端区域平滑,说明测序接近饱和,再增加测序量,检测到的基因数目也不会变化太多。)

Reference

[1] A Guide to Analyzing Single-cell Datasets, John F. Ouyang, January 2023

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/509277.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

攻防世界-get_post

题目信息 相关知识 -G:表示GET请求,缺省POST -d参数用于发送 POST 请求的数据体 使用-d参数以后,HTTP 请求会自动加上标头Content-Type : application/x-www-form-urlencoded。并且会自动将请求转为 POST 方法,因此可以省略-X PO…

docker 创建RedHat8.5镜像

确定要创建的小红帽版本,可以进入官网查看 https://hub.docker.com/search?qRedHat 复制命令到安装docker的机器上,拉取小红帽镜像。 docker pull redhat/ubi8:latest 执行完成后,查看镜像是否拉取成功 docker images |grep redhat 如图…

Linux安装JumpServer并结合内网穿透实现公网访问本地服务

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

vscode使用git

更改的文件 点击号 , 相当于git add 添加到暂存区 -号 取消暂存区内容 可以查看更改的前后对比 编辑器左下角点击分支,可以创建新分支 提交到暂存区后,点击 提交 , 编辑备注内容 ,相当于git commit -m 提交备注内容 同…

千兆单口(百兆双口)小体积 24PIN 网络变压器 H82409S 特点

Hqst华轩盛(石门盈盛)电子导读:千兆单口(百兆双口)小体积 24PIN 网络变压器 H82409S 特点 大家好,石门盈盛电子科技有限公司工程盛先生,今天向大家介绍石门盈盛电子科技有限公司的一款优势产品 - 千兆单口(…

Java中的数据压缩和存储技术:Zip、GZip与Brotli

第1章:引言 大家好,我是小黑,作为一名Java程序员,在业务开发中,常常面临着一个问题:如何高效地处理和传输这些庞大的数据呢?答案就在于数据压缩技术。数据压缩,简而言之&#xff0c…

Sora:探索大型视觉模型的前世今生、技术内核及未来趋势

Sora,一款由OpenAI在2024年2月推出的创新性文生视频的生成式AI模型,能够依据文字说明,创作出既真实又富有想象力的场景视频,展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析,全面审视了Sor…

【大厂AI课学习笔记NO.63】模型的维护

说是模型的维护,其实这堂课都是在讲“在工业环境中开发和部署机器学习模型的流程”。 上图来自于我的笔记思维脑图,已经上传,要链接的访问的主页查看资源。 一路走来,我们学习了数据管理、模型学习、模型验证、模型部署等重要的步…

分享经典、现代和前沿软件工程课程

随着信息技术的发展,软件已经深入到人类社会生产和生活的各个方面。软件工程是将工程化的方法运用到软件的开发、运行和维护之中,以达到提高软件质量,降低开发成本的目的。软件工程已经成为当今最活跃、最热门的学科之一。 本次软件工程MOOC课…

基于springboot+vue的智能学习平台系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

全新攻击面管理平台

首页大屏 内测阶段,免费试用一个月 有兴趣体验的师傅,来长亭云图极速版群里找我 py

撸chatgpt3.5 api backend-api 对接wxbot

功能是实现 web 转api 对接wxbot用, 直接上代码, 1.获取wss url def get_register_websocket():# 请求头url "https://chat.openai.com/backend-api/register-websocket"payload {}headers {Authorization: Bearer eyJhbGxxxxxxxxxxxxx…