Augustus训练与预测

使用AUGSTUS+Geneid+GeneMark+GeMoMa+GenomeThreader+Exonerate进行基因结构预测 - 知乎

JJH方法

方法一:只需要参考物种的基因模型(这里是从NCBI上下载的genome.fasta和gff文件),训练过程如下

# 进入conda环境
sudo su
password
conda activate training
# 构建参考基因组训练模型,augustus软件本身提供了一个脚本(autoAugTrain.pl)可以进行自动训练
autoAugTrain.pl --genome=/media/aa/DATA1/JJH/Phlebia/NCBI/GCA_001913855.2_ASM191385v2_genomic.fasta --trainingset=/media/aa/DATA1/JJH/Phlebia/NCBI/GCA_001913855.2_ASM191385v2_genomic.gff --species=Phlebia_acerina_ncbi
--genome 参考基因组fasta序列文件
--trainingset 参考基因组gff注释文件
--species 物种名
# 以上用的是参考物种的基因序列和gff文件,注意这里序列ID中不能有空格等其他特殊符号
# 本次使用已经训练好的MS2基因组/root/anaconda3/envs/training/config/species/MS2作为参考
mkdir augustus && cd augustus
# 预测过程如下:
augustus --strand=both  --genemodel=complete --uniqueGeneId=true --noInFrameStop=true --gff3=on --AUGUSTUS_CONFIG_PATH=/root/anaconda3/envs/training/config/ --outfile=5.1054_augustus_complete.gff3 --species=MS2 ../5.1054_genome.fasta
#这里的fasta序列是要预测物种的fasta序列。

对gff3结果进行整理,修改基因ID并转换成标准的gff3格式,并得到pep

perl -p -i -e 's/\ttranscript\t/\tmRNA\t/' augustus.gff3
GFF3Clear --gene_prefix aug --genome ../5.1054_genome.fasta --GFF3_source AUGUSTUS augustus.gff3 > out
mv out 5.1054_augustus.gff3
# 得到protein.fasta用于后续注释
~/anaconda3/envs/training/opt/evidencemodeler-1.1.1/EvmUtils/gff3_file_to_proteins.pl 5.1054_augustus.gff3 ../5.1054_genome.fasta prot > protein.fasta
# 得到CDS
~/anaconda3/envs/training/opt/evidencemodeler-1.1.1/EvmUtils/gff3_file_to_proteins.pl 5.1054_augustus.gff3 ../5.1054_genome.fasta CDS > CDS.fasta
# 得到cDNA
~/anaconda3/envs/training/opt/evidencemodeler-1.1.1/EvmUtils/gff3_file_to_proteins.pl 5.1054_augustus.gff3 ../5.1054_genome.fasta cDNA > cDNA.fasta
# 得到gene
~/anaconda3/envs/training/opt/evidencemodeler-1.1.1/EvmUtils/gff3_file_to_proteins.pl 5.1054_augustus.gff3 ../5.1054_genome.fasta gene > gene.fasta
# 整理文件
perl -p -i -e 's/^(>\S+).*/$1/' protein.fasta CDS.fasta cDNA.fasta gene.fasta
# 得到bestprotein
/media/aa/DATA/SZQ2/Zhanmengtao_bin-master/bestProtein.pl protein.fasta > bestprotein.gff3 2> protein_statistic

 使用evm脚本将gff转化为evm格式的gff

ls *.fasta |cut -d"." -f 1 |while read id;do
augustus_GFF3_to_EVM_GFF3.pl augustus/${id}_aug.gff > augustus/${id}_aug_gene.gff
done

方法二:需要参考物种的基因组序列,gff文件和转录组序列,按照genome_prediction中的run.sh来执行

注意参考序列的fasta物种ID中不能有特殊符号,且序列中不能有换行符,去除换行符命令如下:

perl -pe '/^>/ ? print "\n" : chomp' /home/aa/JJH/14.genome_comparison/MCScanX/MS2_vaninii_baumii/S_vaninii_genomic.fasta | tail -n +2 > S_vaninii_genomic1.fasta

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值