1. 下载基因组文件:fa/ fna gff3/ gff(2种格式都可以构建)
来源:NCBI
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/699/485/GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b/GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b_genomic.fna.gz
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/699/485/GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b/GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b_genomic.gff.gz
解压:
gunzip GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b_genomic.fna.gz
gunzip GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b_genomic.gff.gz
注意:如果染色体不是以数字表示,注释之前就需要替换染色体,否则后面注释出来也乱,非数字染色体
来源:NCBI 可以查找对应的数字与编号
2. gff 3 /gtf 转化为txt
/annovar/gff3ToGenePred ref/chicken/GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b_genomic.gff GRCg7b_refGene.txt
/annovar/gtfToGenePred ref/chicken/GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b_genomic.gtf GRCg7b_refGene.txt
3. 转换fa
perl software/annovar/retrieve_seq_from_fasta.pl --format refGene --seqfile /mnt/data/ref/chicken/GCF_016699485.2_bGalGal1.mat.broiler.GRCg7b_genomic.fna GRCg7b_refGene.txt --outfile GRCg7b_refGeneMrna.fa
4.开始注释
见后续