根据taxid获取名称的方法

head virus_taxid

28883
28883
10662
28883
...

`
1.#get the lineage 
taxonkit lineage virus_taxid > virus_line

28883	Viruses;Duplodnaviria;Heunggongvirae;Uroviricota;Caudoviricetes;Caudovirales
10662	Viruses;Duplodnaviria;Heunggongvirae;Uroviricota;Caudoviricetes;Caudovirales;Myoviridae
28883	Viruses;Duplodnaviria;Heunggongvirae;Uroviricota;Caudoviricetes;Caudovirales
28883	Viruses;Duplodnaviria;Heunggongvirae;Uroviricota;Caudoviricetes;Caudovirales

2.#获取最后的一个名字

awk '{$1="";print $0}' virus_line|awk -F ";" '{print $NF}' > virus_name

3.#删除行首空格及tab键
sed -i 's/^[ \t]*//g' virus_name
`

Caudovirales
Caudovirales
Caudovirales
Myoviridae
Caudovirales
Caudovirales

这种同样适用于

1.没有分支的,只是virus:

10239	Viruses
10239	Viruses

会变成:(前面会有一个小空格)

 Viruses
 Viruses
 Viruses
 Viruses

2.名字很长,其中有空格

1173749	Viruses;Duplodnaviria;Heunggongvirae;Uroviricota;Caudoviricetes;Caudovirales;Siphoviridae;Guernseyvirinae;Cornellvirus;Salmonella virus SP31;Salmonella phage FSL SP-031
1173749	Viruses;Duplodnaviria;Heunggongvirae;Uroviricota;Caudoviricetes;Caudovirales;Siphoviridae;Guernseyvirinae;Cornellvirus;Salmonella virus SP31;Salmonella phage FSL SP-031
1173749	Viruses;Duplodnaviria;Heunggongvirae;Uroviricota;Caudoviricetes;Caudovirales;Siphoviridae;Guernseyvirinae;Cornellvirus;Salmonella virus SP31;Salmonella phage FSL SP-031

会变成:

Salmonella phage FSL SP-031
Salmonella phage FSL SP-031
Salmonella phage FSL SP-031
Salmonella phage FSL SP-031
Salmonella phage FSL SP-031
Salmonella phage FSL SP-031

正是想要的格式

#删除行首空格及tab键
sed -i 's/^[ \t]*//g' virus_name

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值