1、测序数据
数据来源于密歇根大学的一项研究,数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址:https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018 ,也可以直接去ebi网站下载这个项目的原始测序数据,会给出下载用的shell脚本。
2、数据下载及质控
数据下载:
数据质控:
直接用fastp过滤
fastp -i $read1 -I $read2 -o ${srr}_1.fq.gz -O ${srr}_2.fq.gz
kneaddata:
集合了软件fastqc,trimmomatic数据过滤,bowtie2比对后去除宿主序列等功能,不指定软件参数安装路径则直接从环境变量中找。还自带数据库,包括人类的基因和转录组,小鼠基因组和silva核糖体数据库,具体信息见github:https://github.com/biobakery/kneaddata
kneaddata -i1 ${srr}_1.fq.gz -i2 ${srr}_2.fq.gz --bypass-trim --reorder --bowtie2-options '--very-sensitive --dovetail' --remove-intermediate-output -v -t 3 -db $ref/GRCh38.p14--output-prefix pre_$srr -o 2.kneaddata/$srr
--bypass-trim:输入的是质控后的序列,不需要再次质控,参数指定后不调用trimmomatic数据过滤。
--remove-intermediate-output: 不保留中间文件,不指定默认保留
-db: 宿主基因组信息,这里为人类bowtie2预先构建索引,指定到索引前缀
--reorder:bowtie2的参数,保持输出read id顺序和输入一致
-t: 三个线程
-v: 日志冗余度控制
输出结果:
paired_[1/2].fastq就是质控的结果文件,自带模块kneaddata_read_count_table可以完成质控后各项指标汇总(log文件),前提是使用trimmomatic软件做过滤。