1.获取功能基因核酸序列(宏基因组操作,在服务器上进行)
•从prokka输出文件中的ffn中获取序列信息,碱基序列长度及结构,数量信息
2.获取参考序列(普通计算机)
![](https://i-blog.csdnimg.cn/blog_migrate/d205a4d84c738421eddebcecf51b20a3.png)
(1)对于非细菌全基因组测序序列,直接作为参考基因序列;根据基因登录号在https://www.ncbi.nlm.nih.gov/sites/batchentrez? 批量下载基因序列和gff注释文件。
![](https://i-blog.csdnimg.cn/blog_migrate/dabc22df7c0543bfd5ca8792b8123eef.png)
(2)对于全基因组序列,则通过wstools2获取该功能基因位置信息,在通过TBtools(v0.66)Quence Toolkits 中的 Fasta Tools 的 Fasta Subseq (Basic)工具,获得功能基因全长序列,需要注意的是,该基因的正反向问题,如果是反向序列,需要在Fasta Tools 中的Sequence Manipulate (Rev&Comp)进行反补;
![](https://i-blog.csdnimg.cn/blog_migrate/1bddda96d5273121a5e79e90916c00ce.png)
![](https://i-blog.csdnimg.cn/blog_migrate/3efcd19285e119264001a4db24f34bf3.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e9b873e69a36be10dad45fffbfe7f926.png)
将测序所得功能基因序列,和ncbi比对所得参考序列,序列编好序号后,合成一个fas文件;
3.构建系统发育树(普通计算机)
(1)MEGA5 打开序列fas文件,MUSCLE工具进行序列 Align,用默认参数,Compute;完成后data 中 phylogenetic analysis,选择非蛋白(no),构建系统发育树;选用ML(Maximum Likelihood)树的kimura2模型,选择bootstrap 检验,值设置为1000 ;关于模型选择了解学习可以参考网址https://www.cnblogs.com/xiaojikuaipao/p/7184625.html;
![](https://i-blog.csdnimg.cn/blog_migrate/d234a7e7dbc5d39cafc704ade4de2578.png)
![](https://i-blog.csdnimg.cn/blog_migrate/42b2995cd08f3445c053de3e70c1d9ce.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a94fef872dc04e1d44d5e76797ee3527.png)
![](https://i-blog.csdnimg.cn/blog_migrate/bd3f556400052a97d6a2213070e0cb40.png)
![](https://i-blog.csdnimg.cn/blog_migrate/496ae082e304f6f0689d3e16cf7bfe8b.png)
建树完成后,导出mts树和nwk文件
![](https://i-blog.csdnimg.cn/blog_migrate/0f83fcf41637ba5b0e469866c10ce215.png)
4.MEME查找motif(普通计算机)
打开MEME网址Introduction - MEME Suite,将序列上传至网站;输入邮箱和任务简介(方便以后查找和比较);参数选项中,设置motif长度为15-20,given strand查找;一般10 min内可以得到结果,下载结果文件MEME.xml或者MAST.xml;
![](https://i-blog.csdnimg.cn/blog_migrate/aa039ca7f1dc617889ada364c191266a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/73e83a098e4bd4106c1a48b6013f9bae.png)
![](https://i-blog.csdnimg.cn/blog_migrate/b29312fb00cc2a6d60821e9488fd413d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/81f1bc584a8b3d4bca0673a397c0bd9f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/994ed111dafc058b06b53dd7b8f2de8c.png)
打开MEME_HTML,下载PDF文件,查看没有两条motif(引物两端),再综合1中excel序列比对信息,如果序列数量很少,或者比对结果中覆盖率(50%)或者相似度较低(70%),或者motif距离与其他序列中相差太远,则放弃该序列在该类群中的引物设计。
![](https://i-blog.csdnimg.cn/blog_migrate/4922f717bee4435ec0279d99c3b52587.png)
![](https://i-blog.csdnimg.cn/blog_migrate/180321dc583e114ff1539f61050ad8b1.png)
重新设计后,按4中重新查找motif后,打开MEME_HTML,打开motif,Download;
![](https://i-blog.csdnimg.cn/blog_migrate/a99e50e8adc46d85ca93fb734fcfd279.png)
![](https://i-blog.csdnimg.cn/blog_migrate/0513910d666230c11103d71f8894a55f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/5c4e8c9cc92065ae35b2200a081c22ae.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6bb3035182c781a410d1082fb22ba5eb.png)
5.功能结构域获取
将建树序列导入DNA序列翻译成氨基酸序列 - 在线工具 - 纽普生物 - NovoPro进行批量蛋白氨基酸翻译,获得的序列导入 批量去除回车键.exe 工具中去除星号和回车键,整理合适的氨基酸序列fas文件,然后导入 Pfam is now hosted by InterPro 中进行pfam结构域查找,输入常用邮箱地址。处理时间不定,30条序列可能需要一小时或者半天,结果会发到邮箱中,整理成excel表格。
![](https://i-blog.csdnimg.cn/blog_migrate/e9a1bf235bb15def02998902304b1987.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6903256f20f4915e8a3ea206ac01b954.png)
采集序列号,氨基酸起始和终止位点,以及保守结构域名称,存成名称为Pfam的txt格式文件。
![](https://i-blog.csdnimg.cn/blog_migrate/2e95cb718ccfa6954d1171ec208c251a.png)
除此之外,还要自制一个gff3文件,定位CDS长度,按要求制作好后存成txt格式的gff3文件。
![](https://i-blog.csdnimg.cn/blog_migrate/ee47307248b70b6a4209137fafd7b3d3.png)
6.TBtools中进行系统发育树,基因结构,引物序列可视化(普通计算机)
把前面整理好的文件按提示输入,按start进行绘制;得到图片后进行简单修改后到处PDF文件;
![](https://i-blog.csdnimg.cn/blog_migrate/2e637acd590959f3e0f680ca1c963e76.png)
![](https://i-blog.csdnimg.cn/blog_migrate/53b8e70e753465b492657c8cc3099ebe.png)
右键,cds,选择Elements Editors中的Group Elements,将Elements Type改为 Line格式
![](https://i-blog.csdnimg.cn/blog_migrate/496f0325ef61367655a7f726ce5525e7.png)
![](https://i-blog.csdnimg.cn/blog_migrate/c73e96ae5b703758c5cb3ef19232c3b9.png)
结构图上改为直线模式;
7.AI文章图片(普通计算机)