fastqc和Trimmomatic的使用

news/2024/12/25 13:53:08/文章来源:https://www.cnblogs.com/wu8567612/p/18306271

1.FastQC分析检测报告

在先前的记录中,我们已经得到了我们的QC报告,现在要针对我们的报告对原始数据进行过滤
其中

都表明该数据需要去接头,并对序列进行处理

2.Trimmomatic的下载

首先,使用conda安装Trimmomatic
conda install Trimmomatic
就可以安装完毕了,安装完使用trimmomatic -h检测是否安装成功

成功了是这样的。
注意:安装前记得先安Java
https://www.jianshu.com/p/43b564783e32

3.开始过滤

可以参考
https://blog.csdn.net/I_LiYY/article/details/105533946
在开始过滤之前,先准备好几个东西:
①.确认好数据是phred33还是phred64,具体的讲解内容在这个帖子里:
https://www.jianshu.com/p/248308513e2e
但是这里只要区分清楚这两种是有区别的就可以,不要搞错了,可以使用脚本来判断,原理是解压1000条出来看看是哪种编码

使用的脚本在这里,非常方便:https://www.jianshu.com/p/9ceabb21be12
②.提前写好的命令:按照自己的需求提前写好,现场一个一个输很麻烦的,而且写好以后可以批量处理
使用命令
trimmomatic PE -threads 8 -phred33 SRR13810477_1.fastq.gz SRR13810477_2.fastq.gz paired_1_R1_paired.fq.gz unpaired_1_R1_unpaired.fq.gz paired_1_R2_paired.fq.gz unpaired_1_R2_unpaired.fq.gz ILLUMINACLIP:/root/anaconda3/pkgs/trimmomatic-0.39-hdfd78af_2/share/trimmomatic-0.39-2/adapters/NexteraPE-PE.fa:2:30:10 SLIDINGWINDOW:4:15 MINLEN:30 LEADING:3 TRAILING:3 MINLEN:30
主要分为三部分,这里解释一下其中各参数都代表什么:
第一部分:
PE:是双端模式,给双端测序数据用的,如果是单端测序,用SE
-threads:这是线程数,你可以选择合适的线程加快进度,不然默认单核,超慢
-phred33:这就是之前提到的,不多赘述
SRR13810477_1.fastq.gz SRR13810477_2.fastq.gz:这是你要处理的数据,因为是双端测序所以有两个
paired_1_R1_paired.fq.gz unpaired_1_R1_unpaired.fq.gz paired_1_R2_paired.fq.gz unpaired_1_R2_unpaired.fq.gz:这是要输出的四个文件,输出文件有四个,使用 -baseout 参数指定输出文件的 basename,软件会自动为四个输出文件命名,过滤之后双端序列都保留的就是 paired,反之如果其中一端序列过滤之后被丢弃了另一端序列保留下来了就是 unpaired(即 成对的clean reads, 未成对的正向序列以及未成对的反向序列),如图:
接下来的参数主要参与去接头的第二部分:
ILLUMINACLIP:/root/anaconda3/pkgs/trimmomatic-0.39-hdfd78af_2/share/trimmomatic-0.39-2/adapters/NexteraPE-PE.fa:2:30:10
/root/anaconda3/pkgs/trimmomatic-0.39-hdfd78af_2/share/trimmomatic-0.39-2/adapters/NexteraPE-PE.fa:参数后面分别接adapter序列的fasta文件:第一步 seed 搜索时允许的最大错配碱基个数2:palindrome模式下匹配碱基数阈值30:simple模式下的匹配碱基数阈值10(7-15之间):palindrome 模式允许切除的最短接头序列为 8bp(默认值):palindrome 模式去除与 R1 完全反向互补的 R2(默认去除false),但在有些情况下,例如需要用到 paired reads 的 bowtie2 流程,就要将这个参数改为 true,否则会损失一部分 paired reads。

按照规定顺序,ILLUMINACLIP 各个参数之间以冒号分开,PE测序需要注意最后一个参数。对于SE测序最后两个参数可以不设置

其中,导入adapter序列的fasta文件时,记得使用绝对路径,不明白的朋友可以直接find来找,如find / -name TruSeq3-PE-2.fa,找到路径之后可以去看一下,是这个样子的:
一般测序公司在给你数据的时候这个也会给你,不过Trimmomatic自带这些Illumina 平台的接头,所以直接用也可以
第三部分,就是关于过滤剪切的参数了,强烈建议一步一步来,先去接头,再过滤剪切。看自己的需要调整选择:
LEADING:3 切除首端碱基质量小于3的碱基
#Illumina平台有些低质量的碱基质量值被标记为 2 ,所以设置为3可以过滤掉这部分低质量碱基。
TRAILING:3 切除尾端碱基质量小于3的碱基
SLIDINGWINDOW:15:20
滑窗质量过滤,一般一个read的低质量序列都是集中在末端,也有很少部分在开头。从5'端开始进行滑动,当滑动位点周围一段序列(window)的平均碱基低于阈值,则从该处进行切除。Windows的size是15个碱基(一般设置在10-30之间),其平均碱基质量小于20,则切除
MINLEN:50 可被保留的最短reads长度,应根据原始序列的长度而定
HEADCROP: 在reads的首端切除指定的长度
CROP: 保留reads到指定的长度
TOPHRED33 将碱基质量转换为pred33格式
TOPHRED64 将碱基质量转换为pred64格式

调整好参数后就可以开始过滤了,过滤的过程主要是这样的:

这里是他输出的四个文件:

4.确认过滤效果

将这四个文件中“paired”的两个拿出来做QC,确认过滤效果

由此可见,我们已经将接头全部切掉了,接下来就可以等待比对了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/744957.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据仓库建模工具之一——Hive学习第二天

Hive的概述 1、Hive基本概念 1.1 Hive简介Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 为什么使用Hive?使用hadoop,成本太高,项目要…

三分钟了解自定义表单自定义工作流的多个优势

如果想了解自定义表单自定义工作流的优势特点,可以通过本文获取更多详情信息。降本、提高效率、解决信息孤岛是很多企业亟需要解决的问题。什么样的软件平台可以实现这一目标?可以随时来了解低代码技术平台。它当中的自定义表单自定义工作流拥有多个优势特点,可以为企业降低…

jenkins+allure常见问题汇总

1.生成allure报告时,报Can not find any allure commandline installation. 原因:jenkins下载安装allure插件后,没有配置allure路径 解决办法:Manage Jenkins>Tools>Allure Commandine安装2.执行pytest --alluredir=./allure-result --clean-alluredir时,报error: u…

SSM学习路线

Maven Spring Mybatis SpringMVC SSM整合 Spring Boot Mybatis Plus 项目学习

高通Perflock

高通的Perflock是Qualcomm公司开发的一项技术,用于优化设备性能和功耗管理。Perflock是一种锁定机制,允许操作系统或应用程序在需要时对处理器的性能状态进行控制,从而确保在关键任务或高性能需求的情况下,处理器能够维持在高性能状态。 主要功能和特点性能锁定:Perflock允…

vue3+TS从0到1手撸后台管理系统

1.路由配置 1.1路由组件的雏形 src\views\home\index.vue(以home组件为例)1.2路由配置 1.2.1路由index文件 src\router\index.ts //通过vue-router插件实现模板路由配置 import { createRouter, createWebHashHistory } from vue-router import { constantRoute } from ./rou…

黑盒测试用例设计方法三

一、正交实验法 1)正交法原理介绍1、日本人,统计学家提出的 2、使用的工具:正交表 3、统计和分析实验数据,从大量实验中找到合适的实验数据组合(原本用于工业生产的数据组合与实验室的数据挑选) 4、从大量的试验组合中,挑选出一部分具有代表性的点,进行实验,分析数据。…

需求流程之产品愿景和用户画像

1.产品愿景: 羽毛球比赛计分程序旨在为各类羽毛球赛事提供高效、准确且便捷的计分解决方案,提升比赛的组织效率和公正性,同时为运动员、裁判、观众和赛事组织者带来优质的体验。2.用户画像

荣耀折叠,太卷啦

又薄又强,只缺“杀手”……近日的Magic旗舰新品发布会上,荣耀一口气带来了两款新折叠屏旗舰新品——荣耀Magic V3和荣耀Magic Vs3。 荣耀总裁赵明一如既往地自信,向大家一一阐述在折叠屏领域近百亿元研发投入换来的种种“奇迹”:创行业纪录的轻薄,青海湖电池加持,航天特种…

使用 GitHub 跟踪博文数据,并自动同步到 cnblogs

本文将说明如何使用 GitHub 跟踪博文数据并自动同步到 cnblogs 的方法,并做相关的个人使用心得分享导读 开通了博客园的 VIP 发现了会员服务中的 GitHub 跟踪和同步博文数据的功能,测试发现习惯使用 GitHub 的话,这个还是一个挺不错的功能。 本文主要分两部分,一是介绍说明…

极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR:多元化投资组合预测风险测度分析|附代码数据

全文链接:http://tecdat.cn/?p=24182 最近我们被客户要求撰写关于极值理论的研究报告,包括一些图形和统计输出。 本文用 R 编程语言极值理论 (EVT) 以确定 10 只股票指数的风险价值(和条件 VaR) 使用 Anderson-Darling 检验对 10 只股票的组合数据进行正态性检验,并使用 …

PYTHON用时变马尔可夫区制转换(MARKOV REGIME SWITCHING)自回归模型分析经济时间序列|附代码数据

全文下载链接:http://tecdat.cn/?p=22617 最近我们被客户要求撰写关于MRS的研究报告,包括一些图形和统计输出。 本文提供了一个在统计模型中使用马可夫转换模型模型的例子,来复现Kim和Nelson(1999)中提出的一些结果。它应用了Hamilton(1989)的滤波器和Kim(1994)的平滑…