#输入文件:
1)待比对的全基因组文件(屏蔽了重复序列的)
2)参考物种的gff格式文件(gene transfer format),用来对基因组进行注释
#一定要注意!基因组文件里面的scaffold和gff3的命名要一致,这样才能切基因,做下游!!!
####再次注意!!!做基因预测的时候字符不能大于16,所以还是拿scaffold_XX,去预测,然后注意基因组文件和gff3的对应!!!
后期有空再出师姐的代码解读工作
一、准备工作
mkdir 0828bidui #在~/Qxy/knowngenome/gongxianxing目录下
首先需要保证24个基因组+1个外群都已经做了重复序列分析,有Repeat_result,然后对其中的软屏蔽基因组文件进行改名,基因组序列前面加上物种名,然后后缀都改成*_genomic.fna统一格式
返回到脚本目录下修改脚本
vim changename.sh #在~/Qxy/qxyjiaoben文件夹下更改shell脚本,改对了用于更改文件中序列名
返回到repeat_result文件夹下去修改基因组序列名字
sh ~/Qxy/qxyjiaoben/changename.sh
mv *_genomic.fna ~/Qxy/knowngenome/gongxianxing/0828bidui/
二、开始运行比对切得基因拿到四倍简并位点
2.1跑lastZ
补充比对小知识:一般来说,重测序数据比对多采用BWA和Bowtie2;
不同物种间基因组(不同物种的参考基因组)的比对常用共线性比对,如LastZ,此外还有Last
python3 querysplit_test.py ref_genomic.fna query_genomic.fna absolute_path_of_genom_file_directory(/ifs1/User/wuqi/...)
输入参数:1)python脚本 2)参考基因组 3)待比对基因组 4)工作目录的绝对路径
!!!注意啊大姐!!!这里输入的参数是要做共线性比对的参考基因组,而不是所有基因组,换言之就是想让其他的都跟XX比,就选XX做参考基因组 so南极石耳是参考基因组,其他的是待比对的,包括外群!
!!!parafly批量运行!!!
vim parafly.txt
文件内每一行写入这样一条命令
python3 /ifs1/User/wuqi/Qxy/qxyjiaoben/fromzyr/querysplit_test.py Umbilicaria_antarctica_genomic.fna Hypoc
Python实现基因比对、位点获取与建树流程

该博客介绍了使用Python进行基因分析的流程。首先要做好准备工作,接着运行比对切得基因并获取四倍简并位点,涉及LastZ、Multiz等工具和多个Python脚本。最后进行建树操作,包括mafft比对、Gblocks去空白序列、seqkit去分段和raxml建树,还对比了服务器和在线建树的结果。
最低0.47元/天 解锁文章
2511





