数据准备
Teamviewer登录实验室服务器,访问http://172.17.128.86:8501/CleanData
,按照页面对应的格式要求分别从NCBI和GISAID数据库下载数据,拖拽到对应的位置,点击GO即可。
Gisaid
DNA Accession no.|DNA INSDC|Isolate name|Collection date|Segment
NCBI
Format:>{accession}|{strain}|{year}-{month}-{day}|{segname}|{country}|{host}
数据清洗
根据生成的meatadata表格,按照自己的标准进行数据过滤,只保留相对高质量的数据集。
序列比对
复制表格的最后一列,为只含登录号的Fasta格式序列。新建文本文件,命名为xx.fas
,把最后一列粘贴进去,需要替换掉excel自带的"
。
打开Bioaider的Mafft
比对后的文件用Mega等软件裁剪,只保留CDS区。
去重
打开Bioaider的Remove High-Similar Sequence功能