参考seqkit安装与使用 v2.5.1(生物信息学工具-003)
01 按照fasta的ID去重,相同ID的序列被去除
seqkit rmdup -n test.fasta -o test.rmdup.fasta
02 按照fasta序列去重,相同碱基组成的序列被去除
适用于蛋白序列和核酸序列
seqkit rmdup -s test.fasta -o test.rmdup.fasta
03 统计序列状态
seqkit stat test.fasta > test.fasta.txt
seqkit seq test.fa #查看fa文件等同于cat less
04 输出序列ID
seqkit seq test.fa -n -i > test.fa.id #展示序列ID,仅仅空格前面内容
grep -i '>' test.fa #展示序列ID行全部内容
05 根据id提取序列
seqkit grep -f test_id.txt test.fa -o new_test.fa #根据id提取序列
06 转换核酸序列为蛋白序列,cds转换为pep
这个也方便了建树所需要,同时丰富了多序列比对的层次。
MAFFT安装及使用-mafft v7.520(bioinfomatics tools-004)
seqkit translate test.fa > protein.fa #转化为蛋白序列,cds转化pep
seqkit translate test.fa --trim > protein.fa #去除*