多转录本提取最长转录本的方法

news/2025/1/20 22:34:27/文章来源:https://www.cnblogs.com/ft-2024/p/18682619

1.Seqkit提取
seqkit作为一个非常全能的软件,之前有多次利用到,本来早就该学习了,却一直拖欠了下来。这次要进行一个cds序列的提取,所以在此做一个记录。
目标:将含有多个转录本的Pep文件提取出只有t1序列。
提取现在文件的id序列表
seqkit seq pep.fa -n -i -o ft.lst
将id表中的t1保留,其余删除
grep “.t1” ft.lst >ftnew.lst
根据新的id表提取序列
seqkit grep -f ftnew.lst pep.fa -o pepnew.fa

2.awk提取
由于文件给的是多行序列,利用awk时,可以先将多行序列变为一行,再运行,代码如下:
(1)多行变一行
awk '/^>/&&NR>1{print "";}{printf "%s",/^>/?$0"\n":$0}' pep.fa >pep1.fa
/^>/&&NR>1{print "";}表达的意思是开头为>且行数大于1时,打印一个换行符换行
printf表达的意思是格式打印,%s就是打印字符串
/^>/?$0"\n":$0 是一个二维判断运行结构,?前表示匹配条件,如果匹配前面的条件,运行:前的命令,如果不匹配,运行:后面的内容,即,如果该行以>开头,就是标题行,打印该行($0)并换行(“\n”),如果不匹配,直接打印该行。
(2)如果识别到t1,则打印这行以及下一行,并继续识别下一行。
awk '/t1/{print;getline;print;next}' pep1.fa>pep2.fa

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/872360.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TBtools的使用

转录本:由一条基因通过转录,由于可变剪切形成的一种或多种可供编码蛋白质的成熟mRNA。另外非编码RNA也可能有转录本的说法。 最长转录本:可变剪切一个基因得到多个序列长度不同的转录本,应选序列最长的进行数据分析。 CDS:蛋白质编码区,是与蛋白序列一一对应的DNA序列,不…

finalshell远程连接Centos虚拟机配置固定ip地址

为虚拟机Centos的远程连接软件Finalshell或者xshell等软件配置固定ip地址提示:然后全点确定,就好了,这里就不演示了输入指令vim /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=static #将ip设置为静态IPADDR="192.168.142.130" #静态ip地址,这个130是在0…

【scikit-opt库】智能算法开源库

这个开源库包含以下7个优化算法:网址:https://scikit-opt.github.io/ 使用文档:文档链接:https://scikit-opt.github.io/scikit-opt/#/en/README

【模拟电子技术】07-BJT特性曲线共射

【模拟电子技术】07-BJT特性曲线共射 我们要用三极管,那么就必须考虑输入和输出,即考虑输入特性曲线和输出特性曲线UCE固定,考虑UBE和IB的关系,就相当于一个PN结了!考虑多个变量的关系时,我们往往固定其他变量,然后看其中两个变量的关系,然后两两拿出来观察。三极管有三…

ssm日记04

发现springboot实在是太方便了,虽然还没有具体写过案例,不过直接免去一大堆配置真的太舒服了,明天会接着写案例,掌握是ssm整合springboot 这是学习一个小时的视频

ssm日记01

大前天 即2025.1.15-17学习了spring的前后台联合案例 就是springmvc的ssm整合包括异常处理的方法跟着敲了一边代码,不知道之后会不会使用或者说自己敲一遍,或许到自己跟着视频写案例才会使用到,或者说自己写一个小项目的时候才会用到 写这个异常处理受益匪浅,知道了从系统异…

ssm日记

前天即1.18号学习了springmvc的拦截器知识 但是好像用的不多 拦截器是相对于过滤器 是在请求进入web容器之后拦截和审核的其中主要是实现一个接口的三个方法分别是preHandle postHandle afterCompletion有相关执行顺序 这是代码和注释

学习ssm日记

补发一下前几次的学习日记 这是前两天在学maven高级的代码 都是自己敲得跟着视频 学习了分模块开发和父工程的创建以及关于依赖和pom文件相关知识

OpenWRT配置旁路由/中继模式,同时配置作为NAS必备的IPv6公网IP

1. 环境和要达成的目标 1.1 目标 主路由已配置好拨号,DHCP,IPv6 已刷OpenWRT路由B70作为中继路由,提高覆盖,解决一些老旧只能设备接入问题。 OpenWRT路由同时插入移动硬盘,配置WebDAV和smba作为NAS使用,所以此路自身要能获取到IPv6地址。 我的OpenWRT路由是极路由4,刷的…

【网关系统】通用设计

本文准备围绕七个点来讲网关,分别是网关的基本概念、网关设计思路、网关设计重点、流量网关、业务网关、常见网关对比,对基础概念熟悉的朋友可以根据目录查看自己感兴趣的部分。 一、什么是网关 网关,很多地方将网关比如成门, 没什么问题, 但是需要区分网关与网桥的区别,…

一文告诉你Linux下如何用C语言实现ini配置文件的解析和保存

嵌入式项目开发中,会有很多功能模块需要频繁修改参数,Linux下我们可以通过ini格式的文件保存配置信息。 本文通过开源库iniparser,详细讲解如何用C语言实现ini文件的参数解析和配置保存。 本文代码实例获取方式见文末。 一、ini文件 1 什么是 ini文件INI(Initialization F…

Mysql的学习

Mysql建立 索引优化: sql优化: 为了解决下面的索引失效问题序列索引优化: