1.获取功能基因核酸序列(宏基因组操作,在服务器上进行)
•从prokka输出文件中的ffn中获取序列信息,碱基序列长度及结构,数量信息
2.获取参考序列(普通计算机)
(1)对于非细菌全基因组测序序列,直接作为参考基因序列;根据基因登录号在https://www.ncbi.nlm.nih.gov/sites/batchentrez? 批量下载基因序列和gff注释文件。
(2)对于全基因组序列,则通过wstools2获取该功能基因位置信息,在通过TBtools(v0.66)Quence Toolkits 中的 Fasta Tools 的 Fasta Subseq (Basic)工具,获得功能基因全长序列,需要注意的是,该基因的正反向问题,如果是反向序列,需要在Fasta Tools 中的Sequence Manipulate (Rev&Comp)进行反补;
将测序所得功能基因序列,和ncbi比对所得参考序列,序列编好序号后,合成一个fas文件;
3.构建系统发育树(普通计算机)
(1)MEGA5 打开序列fas文件,MUSCLE工具进行序列 Align,用默认参数,Compute;完成后data 中 phylogenetic analysis,选择非蛋白(no),构建系统发育树;选用ML(Maximum Likelihood)树的kimura2模型,选择bootstrap 检验,值设置为1000 ;关于模型选择了解学习可以参考网址https://www.cnblogs.com/xiaojikuaipao/p/7184625.html;
建树完成后,导出mts树和nwk文件
4.MEME查找motif(普通计算机)
打开MEME网址Introduction - MEME Suite,将序列上传至网站;输入邮箱和任务简介(方便以后查找和比较);参数选项中,设置motif长度为15-20,given strand查找;一般10 min内可以得到结果,下载结果文件MEME.xml或者MAST.xml;
打开MEME_HTML,下载PDF文件,查看没有两条motif(引物两端),再综合1中excel序列比对信息,如果序列数量很少,或者比对结果中覆盖率(50%)或者相似度较低(70%),或者motif距离与其他序列中相差太远,则放弃该序列在该类群中的引物设计。
重新设计后,按4中重新查找motif后,打开MEME_HTML,打开motif,Download;
5.功能结构域获取
将建树序列导入DNA序列翻译成氨基酸序列 - 在线工具 - 纽普生物 - NovoPro进行批量蛋白氨基酸翻译,获得的序列导入 批量去除回车键.exe 工具中去除星号和回车键,整理合适的氨基酸序列fas文件,然后导入 Pfam is now hosted by InterPro 中进行pfam结构域查找,输入常用邮箱地址。处理时间不定,30条序列可能需要一小时或者半天,结果会发到邮箱中,整理成excel表格。
采集序列号,氨基酸起始和终止位点,以及保守结构域名称,存成名称为Pfam的txt格式文件。
除此之外,还要自制一个gff3文件,定位CDS长度,按要求制作好后存成txt格式的gff3文件。
6.TBtools中进行系统发育树,基因结构,引物序列可视化(普通计算机)
把前面整理好的文件按提示输入,按start进行绘制;得到图片后进行简单修改后到处PDF文件;
右键,cds,选择Elements Editors中的Group Elements,将Elements Type改为 Line格式
结构图上改为直线模式;
7.AI文章图片(普通计算机)