单细胞转录组上游fasta文件处理

news/2024/11/15 8:40:35/文章来源:https://www.cnblogs.com/zcj-0928/p/18330797

单细胞分析上游fasta文件处理

——基于cellranger与dropseqRunner

 

###如果测序文件由10X genomics平台产生,则采用cellranger count的基本流程进行fasta文件的上游处理;如果测序文件由dropseq平台产生,则采用dropseqRunner软件进行处理

一、cellranger配置

1、软件安装并查看帮助文档

#安装包下载

wget -O cellranger-7.1.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.1.0.tar.gz?Expires=1694703729&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci03LjEuMC50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2OTQ3MDM3Mjl9fX1dfQ__&Signature=YmIZ3TsEI7VxGNIY7SdL~8oH0jr7ktjMZ48HRiLDQfcYLN4YWcs5nk0CZeKkeemvygGK3VryeHnvZpA21r2jN2YKfSeAHC03t-aDKzjctzbPvnv9UbckvrOghyxW7mH14W7uzMJJ1C9PbBo869EDRH04vxfsYGFQONCxvb~iBamTU1ZJ-6etWVioLjzb7o4-Y3v4v46nw67qf2NaPTwNXr4PIA-vFdWe9v9YhQQM6VlHR8a5crTmaM39hGC~2PatW0qlEd-DsMHeeNb34~Gr5N8XNIHv6K1VcuMq8VobqLQKxeoz3obmA23~kWkPNOSZNCVXosd0p6Ok7fUHiVUt-Q__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA" &

#解压文件

tar -zxvf cellranger-7.0.1.tar.gz

#把cellranger的路径加到$PATH中方便调用

vi ~/.bashrc

export PATH=”/data5/tan/zengchuanj/Software/cellranger-7.1.0/bin:$PATH”

echo 'export PATH=/data5/tan/zengchuanj/Software/cellranger-7.1.0/:$PATH' >> ~/.bashrc

#更新系统配置文件

source  ~/.bashrc

#查看cellranger使用说明

cellranger count --help

 

2、参考基因组下载

#人类参考基因组数据集

wget -o human.log https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz &

tar -xvf refdata-gex-GRCh38-2020-A.tar.gz

#mouse参考基因组数据集下载

wget -o mouse.log https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz &

tar -xvf refdata-gex-mm10-2020-A.tar.gz

#测试数据集下载

wget -o sample.log 'http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar' &

tar -xvf neurons_900_fastqs.tar #解压

cellranger count --id=result --transcriptome=../refdata-gex-mm10-2020-A/ --fastqs=/neurons_900_fastqs --sample=neurons_900 --expect-cells=1000 --nosecondary

 

 Attention:#count函数参数解释

 cellranger count --id=sample \

                   --transcriptome=/opt/refdata-cellranger-GRCh38-1.2.0 \

                   --fastqs=/home/scRNA/runs/HAWT7ADXX/outs/fastq_path \

                   --sample=mysample \

                   --expect-cells=1000 \

                   --nosecondary

# id指定输出文件存放目录名

# transcriptome指定与CellRanger兼容的参考基因组

# fastqs指定mkfastq或者自定义的测序文件

# sample要和fastq文件的前缀中的sample保持一致,作为软件识别的标志

# expect-cells指定复现的细胞数量,这个要和实验设计结合起来

# nosecondary 只获得表达矩阵,不进行后续的降维、聚类和可视化分析(反正后续要走Seurat,为了节省计算资源,建议加上)

 

3、结果解读

 

Ref:https:/zhuanlan.zhihu.com/p/390516422

Outputs:

- Run summary HTML:                      /data5/tan/zengchuanj/pipeline/cellranger/result/outs/web_summary.html

- Run summary CSV:                       /data5/tan/zengchuanj/pipeline/cellranger/result/outs/metrics_summary.csv

- BAM:                                   /data5/tan/zengchuanj/pipeline/cellranger/result/outs/possorted_genome_bam.bam

- BAM index:                             /data5/tan/zengchuanj/pipeline/cellranger/result/outs/possorted_genome_bam.bam.bai

- Filtered feature-barcode matrices MEX:    /data5/tan/zengchuanj/pipeline/cellranger/result/outs/filtered_feature_bc_matrix

- Filtered feature-barcode matrices HDF5:   /data5/tan/zengchuanj/pipeline/cellranger/result/outs/filtered_feature_bc_matrix.h5

- Unfiltered feature-barcode matrices MEX:  /data5/tan/zengchuanj/pipeline/cellranger/result/outs/raw_feature_bc_matrix

- Unfiltered feature-barcode matrices HDF5: /data5/tan/zengchuanj/pipeline/cellranger/result/outs/raw_feature_bc_matrix_h5.h5

- Secondary analysis output CSV:         /data5/tan/zengchuanj/pipeline/cellranger/result/outs/analysis

- Per-molecule read information:         /data5/tan/zengchuanj/pipeline/cellranger/result/outs/molecule_info.h5

- Loupe Browser file:               /data5/tan/zengchuanj/pipeline/cellranger/result/outs/cloupe.cloupe

 

  1. outs/raw_feature_bc_matrix: 这个文件夹包含原始的基因表达矩阵,每一行代表一个基因,每一列代表一个细胞。这个矩阵中的值表示每个细胞中每个基因的表达水平。这个矩阵没有经过任何的标准化或过滤。

 

  1. outs/filtered_feature_bc_matrix: 这个文件夹包含经过过滤后的基因表达矩阵。在这个矩阵中,已经去除了低质量的细胞和低表达的基因。这是进行后续分析的主要输入。此文件夹包含三个文件:barcodes.tsv.gz、features.tsv.gz和matrix.mtx.gz。这些文件包含了每个细胞的条形码、每个特征的名称和每个细胞中每个特征的计数。

 

  1. outs/metrics_summary.csv: 这个CSV文件包含了关于每个细胞和每个样本的一些质量控制指标,例如细胞计数、平均基因表达水平等。

 

  1. outs/web_summary.html: 这个HTML文件提供了一个交互式的可视化界面,用于查看分析的总结结果,包括细胞计数、质量控制指标、细胞类型聚类等。

 

  1. outs/cloupe.cloupe: 这是一个文件,可以用于在10x Genomics的Loupe浏览器中查看和分析单细胞数据。Loupe浏览器提供了丰富的数据可视化和分析功能。

 

二、dropseqRunner的配置

1、conda的安装

dropseqRunner是个依赖conda和python的环境,在安装前确保自己的服务器中有与之兼容的conda与python

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.3.1-Linux-x86_64.sh

bash Anaconda3-5.3.1-Linux-x86_64.sh

2、Dropseq的安装

wget https://codeload.github.com/aselewa/dropseqRunner/zip/master

mv master master.zip

unzip master.zip

#创建dropseq运行的conda环境

conda env create -f environment.yaml

#每次运行dropseq前需要进行激活,不激活环境则无法调用snakemake

conda activate dropRunner

#编译,不编译无法出现主脚本

make

 

3、下载参考数据并构建比对索引

#这里以小鼠的为例

wget -o mm.log https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/635/GCF_000001635.27_GRCm39/GCF_000001635.27_GRCm39_genomic.fna.gz &

#安装处理gff文件软件

conda install gffread

#将gff文件转换为gtf文件

gffread GCF_000001635.27_GRCm39_genomic.gff -T -o mice.gtf

#建参考数据库

STAR --runThreadN 4 --runMode genomeGenerate --genomeDir reference/ --genomeFastaFiles  GCF_000001635.27_GRCm39_genomic.fna --sjdbGTFfile mice.gtf

 

4、Dropseq使用方法

python /dropseqRunner-master/dropRunner.py  --R1 SRR11799731_R1.fastq.gz --R2 SRR11799731_R2.fastq.gz --indices /dropseqRunner-master/db/reference --sample SRR11799731 --protocol drop

#主程序使用方法

#各个参数:

#R1 R2,分别是你的两个fastq文件

#--indices是刚才构建好的参考数据集

#--sample是样本前缀名

#运行完毕后用于Seurat的数据存在/sample/output/SRR11799731_0_Solo.out/Gene

 

 

三、Error自查

Attention error:主要是下载、安装、配置上的问题

1、 dropseqRunner下载问题

#下载dropseq

git clone git@github.com:aselewa/dropseqRunner.git

cd dropseqRunner

这个问题是关于使用Git克隆dropseqRunner时出现了权限拒绝错误。错误信息是“Permission denied (publickey)”。

这个错误通常是由于缺少SSH密钥或使用了错误的SSH密钥导致的。以下是一些可能的解决方法:

  • 检查SSH密钥

在本地计算机上生成SSH密钥,并将公钥添加到GitHub帐户中。可以使用以下命令检查是否存在SSH密钥:

   ls -al ~/.ssh

 

   如果没有SSH密钥,请使用以下命令生成:

   ssh-keygen -t rsa -b 4096 -C "your_email@example.com"

   然后将公钥添加到GitHub帐户中。

  • 使用HTTPS URL

使用HTTPS URL而不是SSH URL来克隆dropseqRunner。使用以下命令:

   git clone https://github.com/aselewa/dropseqRunner.git

   这将使用HTTPS URL克隆`dropseqRunner`,而不需要SSH密钥。

  • 检查GitHub帐户权限

确保你的GitHub帐户具有克隆dropseqRunner的权限。如果您没有访问权限,请联系仓库的所有者以获取访问权限。

Ps:如果这些都解决不了,建议开始摆烂

  • wget登场

wget https://codeload.github.com/aselewa/dropseqRunner/zip/master

之前以为Github仓库的master分支基本上应该是提交代码的记录,实际master是个二进制文件,后续发现实际应该是个.zip文件。

2、dropseqRunner配置问题

这一问题主要是因为environment.yaml下载错误,重新下载安装即可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/773733.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

帝国CMS网站忘记后台管理员帐号怎么办?

忘记后台管理员帐号怎么办?使用MySQL数据库管理软件phpmyadmin,查看phome_enewsuser表里的记录:查看username字段的内容。扫码添加技术【解决问题】专注中小企业网站建设、网站安全12年。熟悉各种CMS,精通PHP+MYSQL、HTML5、CSS3、Javascript等。承接:企业仿站、网站修改、…

易优cms空间安装易优,如何去除URL中的index.php

普遍适用于百度云虚拟主机百度云bch云主机支持nginx原生态伪静态规则写法,请将规则写到/webroot/目录下的bcloud_nginx_user.conf文件中(没有则创建),重载站点生效。首先我们写一个bcloud_nginx_user.conf 文件,写入一下代码:location / { if (!-e $request_filename)…

帝国CMS备份数据压缩存放目录

问:帝国CMS备份数据压缩存放目录 答:备份数据压缩存放目录/e/class/config.php扫码添加技术【解决问题】专注中小企业网站建设、网站安全12年。熟悉各种CMS,精通PHP+MYSQL、HTML5、CSS3、Javascript等。承接:企业仿站、网站修改、网站改版、BUG修复、问题处理、二次开发、P…

访问PHP网站为空白页面怎么办?

错误记录: 访问PHP网站为空白页面错误原因: 部分程序在缓存文件过大时会导致网站空白,出现这种问题时,一般网站后台还是可以访问,登录后台清空程序缓存即可。部分网站程序会生成一个静态页面,而生成的时候因为种种原因,生成的首页文件index.html大小是0KB,没有内容,造…

织梦DedeCMSv5.7安装初始化数据体验包失败的解决方法

有些朋友在安装织梦DEDECMS程序时,安装初始化数据体验包失败,因为体验包数据比较大,网络不好的时候很容易失败,下面是一种比较保险的初始化数据体验包安装方法. 1、先安装一个全新的DedeCMS v5.7 GBK程序,安装时不要勾选安装初始化体验包. 2、下载数据体验包(dedecms v5.6与V5.…

帝国cms为什么生成后的页面都是空白内容?

你的目录权限有问题,重新设置一下安装时需要设置的目录权限.是目录记得应用于子目录与文件扫码添加技术【解决问题】专注中小企业网站建设、网站安全12年。熟悉各种CMS,精通PHP+MYSQL、HTML5、CSS3、Javascript等。承接:企业仿站、网站修改、网站改版、BUG修复、问题处理、…

即时聊天系统(类微信社区)开发需求与功能架构分析

在当今数字化时代,即时通讯应用如微信、QQ、Telegram等已成为人们日常生活中不可或缺的一部分。这些平台不仅支持基础的文字、图片、视频消息传输,还集成了朋友圈分享、个人信息管理、以及高效的通知系统等多元化功能。以下是对一个类微信即时聊天系统开发需求与功能架构的详…

js vue3 vue2鼠标单击事件复制指定内容到粘贴板

借助原生 JavaScript 的 navigator.clipboard.writeText() 方法来时(要求页面是在用户交互的上下文中,比如点击事件处理程序中调用) 如:点击列表的复制按钮,得到指定列(data)的值到粘贴板<template> <div> <button @click="click">复制文…

模拟冲刺(Sprint)

用户地图 模拟冲刺Sprint 队伍与选手信息展示 用户故事:作为赛事观众或参赛者,我能够通过网页查看所有队伍及其选手的详细信息。 任务拆分与开发时间 设计队伍与选手的数据模型,并在后端数据库中创建相应表格。-6h 实现后端API接口,用于获取队伍与选手信息。-8h 设计并实…

使用SPSS分析数据简单教程

1. SPSS SPSS原名社会科学统计包(Statistical Package for the Social Sciences),SPSS公司于2000年正式将英文全称更改为统计产品与服务解决方案(Statistical Product and Service Solutions)。2009年7月28日,SPSS公司宣布该公司被IBM收购。 2. 解决什么问题? 一般我们使…

Jmeter之读取csv文件踩坑记

CSV Data Set Config是JMeter中用于参数化测试的关键元件,其主要功能是从CSV文件中读取数据,并将这些数据作为变量提供给测试脚本使用。这种元件在模拟多用户、不同输入或其他测试用例时非常有用。以下将详细介绍CSV Data Set Config的各个参数及其作用: 文件名:可以填写文…

编译期链接时共享库搜索路径优先级实验

做实验验证共享库在编译期链接时库路径搜索的优先级目录前言实验环境目录说明准备工作单独测试不配置路径默认路径LIBRARY_PATH-L优先级测试默认路径和LIBRARY_PATH-L和默认路径DEBUG模式编译器配置详细信息链接器详细信息DEBUG总结验证默认路径>LIBRARY_PATH原因附录库文件…