宏基因组实战之：质控去宿主-编程知识

宏基因组实战之：质控去宿主

news/2024/11/17 15:58:56/文章来源:https://www.cnblogs.com/mmtinfo/p/18350510

1、测序数据

数据来源于密歇根大学的一项研究，数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址：https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018 ，也可以直接去ebi网站下载这个项目的原始测序数据，会给出下载用的shell脚本。

2、数据下载及质控

数据下载：

数据质控：
直接用fastp过滤
fastp -i $read1 -I $read2 -o ${srr}_1.fq.gz -O ${srr}_2.fq.gz

kneaddata：
集合了软件fastqc，trimmomatic数据过滤，bowtie2比对后去除宿主序列等功能，不指定软件参数安装路径则直接从环境变量中找。还自带数据库，包括人类的基因和转录组，小鼠基因组和silva核糖体数据库，具体信息见github：https://github.com/biobakery/kneaddata

kneaddata -i1 ${srr}_1.fq.gz -i2 ${srr}_2.fq.gz --bypass-trim --reorder --bowtie2-options '--very-sensitive --dovetail' --remove-intermediate-output -v -t 3 -db $ref/GRCh38.p14--output-prefix pre_$srr -o 2.kneaddata/$srr

--bypass-trim：输入的是质控后的序列，不需要再次质控，参数指定后不调用trimmomatic数据过滤。
--remove-intermediate-output: 不保留中间文件，不指定默认保留
-db: 宿主基因组信息，这里为人类bowtie2预先构建索引，指定到索引前缀
--reorder：bowtie2的参数，保持输出read id顺序和输入一致
-t: 三个线程
-v: 日志冗余度控制
输出结果：

paired_[1/2].fastq就是质控的结果文件，自带模块kneaddata_read_count_table可以完成质控后各项指标汇总(log文件)，前提是使用trimmomatic软件做过滤。