使用方法参考: 基于全基因组的基因家族分析(3):SlNRAMP家族基因CDS和Genomic DNA序列获取
Gene序列要获得的ID号不仅仅是seqid,而且还需要在染色体上的位置信息——起始和终止位置,以及染色体编号。这里就需要用到其他两个数据文件了,就是基因组序列(dna)和基因组注释文件(gff3)。思路——首先根据已经获得的ID号从gff文件中获取染色体位置信息,然后再用bedtools工具根据得到的染色体位置信息来获取基因的序列,最终得到基因集。
代码如下。
#!/bin/bash
c=$(ls *.gff3)
for j in ${c}
do
gff3=