宏基因组实战之:质控去宿主

news/2024/11/17 15:58:56/文章来源:https://www.cnblogs.com/mmtinfo/p/18350510

1、测序数据

数据来源于密歇根大学的一项研究,数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址:https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018 ,也可以直接去ebi网站下载这个项目的原始测序数据,会给出下载用的shell脚本。

2、数据下载及质控

数据下载:
image

数据质控:
直接用fastp过滤
fastp -i $read1 -I $read2 -o ${srr}_1.fq.gz -O ${srr}_2.fq.gz

kneaddata:
集合了软件fastqc,trimmomatic数据过滤,bowtie2比对后去除宿主序列等功能,不指定软件参数安装路径则直接从环境变量中找。还自带数据库,包括人类的基因和转录组,小鼠基因组和silva核糖体数据库,具体信息见github:https://github.com/biobakery/kneaddata

kneaddata -i1 ${srr}_1.fq.gz -i2 ${srr}_2.fq.gz --bypass-trim --reorder --bowtie2-options '--very-sensitive --dovetail' --remove-intermediate-output -v -t 3 -db $ref/GRCh38.p14--output-prefix pre_$srr -o 2.kneaddata/$srr 

--bypass-trim:输入的是质控后的序列,不需要再次质控,参数指定后不调用trimmomatic数据过滤。
--remove-intermediate-output: 不保留中间文件,不指定默认保留
-db: 宿主基因组信息,这里为人类bowtie2预先构建索引,指定到索引前缀
--reorder:bowtie2的参数,保持输出read id顺序和输入一致
-t: 三个线程
-v: 日志冗余度控制
输出结果:
image
paired_[1/2].fastq就是质控的结果文件,自带模块kneaddata_read_count_table可以完成质控后各项指标汇总(log文件),前提是使用trimmomatic软件做过滤。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/780266.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

宏基因组实战之:公开数据下载

1、测序数据 数据来源于密歇根大学的一项研究,数据项目号为PRJNA389927。这个研究项目的包括正常、癌前病变和癌症病人样本共181例。项目对应的github地址:https://github.com/SchlossLab/Hannigan_CRCVirome_mBio_2018 ,也可以直接去ebi网站下载这个项目的原始测序数据,会…

在Power BI表或矩阵中创建迷你图

第一部分:什么是迷你图? Power BI目前已支持在表或矩阵添加迷你图(迷你图功能目前为预览版)。迷你图可以方便用户快速查看和比较趋势,同时可以突出显示最大值和最小值等等,非常实用。 样例图: 前期准备:开启迷你图功能 默认情况下,迷你图应是开启的状态。由于大家使用…

程序员壁纸合集分享,最后一张有惊喜

周五轻松一下,给大家分享一些程序员有关的壁纸,看到最后一张有惊喜哦~大家好,我是程序员鱼皮,今天轻松一下,给大家分享一些程序员有关的壁纸,看到最后一张有惊喜哦~经典壁纸 神图镇楼:希望这张壁纸不要成真:这是程序员每天的生活么?有多少人能看懂这张图的意思?01 是…

C语言(三)函数与文件

C语言(三)函数与文件 1. 函数定义与声明 作用:将一段经常使用的代码封装起来,减少重复代码 函数的定义一般主要有5个步骤:返回值类型:一个函数可以返回一个值。在函数定义中; 函数名:给函数起个名称; 参数列表:使用该函数时,传入的数据; 函数体语句:花括号内的代码…

Python按条件删除Excel表格数据的方法

本文介绍基于Python语言,读取Excel表格文件,基于我们给定的规则,对其中的数据加以筛选,将不在指定数据范围内的数据剔除,保留符合我们需要的数据的方法~本文介绍基于Python语言,读取Excel表格文件,基于我们给定的规则,对其中的数据加以筛选,将不在指定数据范围内的数据…

git rebase重定基时冲突,文件损坏出现HEAD标志一键删除

我遇到这种情况,我去找同类文章,结果他们说删除就行了,(要是我能一键修复还用得着你?) 终于在Github Docs找到了一键删除的方法:git rebase --abort第二解决方法: 使用VSCode

git合并代码时冲突,文件损坏出现HEAD标志一键删除

我遇到这种情况,我去找同类文章,结果他们说删除就行了,(要是我能一键修复还用得着你?) 我的解决方法: 使用VSCode

一文读懂银企直联

中国企业财资管理发展的二十年,也是银企直联发展的二十年。作为财资管理的底层技术支撑,银企直联一直是中国财资管理行业发展道路上的基石。通过银企直联,企业不仅可以实现跨银行的全局账户视通和足不出户的企业直联支付,还能实现跨银行的资金自动归集。然而,银企直联的建…

Springboot+logback+druid +密码加密 实现业务日志入库

springboot 配置 spring:datasource:type: com.alibaba.druid.pool.DruidDataSourcedruid:# 主库数据源master:driverClassName: com.mysql.cj.jdbc.Driverurl: jdbc:mysql://xxx:3306/dbName?useUnicode=true&characterEncoding=utf8&zeroDateTimeBehavior=convertTo…

games101 作业1及作业2分析及解决

games101 作业1及作业2分析及解决 去年的时候把games101的课程以及作业完成,但是整个过程比较粗略,也借助了不少外界的力量(doge),于是最近准备抽几天集中再把作业(1-7)过一遍,常看常新嘛 环境配置直接用:https://github.com/roeas/GAMES101-Premake 之前是在虚拟机上…

ComfyUI插件:ComfyUI_Noise节点

前言: 学习ComfyUI是一场持久战,ComfyUI_Noise是对ComfyUI中的噪声进行控制的一个插件库,该库可以完成图像噪声的反推,并通过采样再以几乎无损的方式返回原图,通过该库的使用可以更好的帮助图像恢复原始的相貌,非常适合在生成视频领域用作人物转绘使用。祝大家学习顺利,…