需要用到的软件
- MAFFT:多重比对,conda下可以直接安装;也可以通过在线网站https://mafft.cbrc.jp/alignment/server/
- AliView:可视化比对结果,http://www.ormbunkar.se/aliview/
- BMGE:用于移除比对效果差的区域,conda下直接安装
MAFFT多重比对和Aliview的可视化
下面介绍command lind 和 online两种方法。
command
mafft --auto seqence.fasta > sequence_aln.fasta
--auto表示自动选择算法
online
在网站上选择上传你的fasta文件或者复制到选框中,其他选项暂时保持默认。点击最下方的submit。
结果
无论哪种方法,在选择--auto
时,都会报告出多重比对使用的算法:
点击上方的‘Fasta format’进行下载。
补充
前面我们使用的是自动选择算法并保持参数默认。此时的空位罚分是1.53,软件会选择合适的算法,但是不能够自己修改参数,如果需要更好的比对效果,需要自己定义空位罚分,下面我们设定罚分为2。(如果图省事可以使用默认的参数)
mafft --auto --op 2 seq.fasta > seq_op2_aln.fasta
将两个比对结果用Aliview可视化结果如下:
op=1.53
op=2
从图上我们看到,比对长度不一致,当罚分增加时,gap会变少。这符合生物进化规律,基因突变的概率总是比从获得一段外源基因高。
Aliview纠正比对结果
图上可以看到 1020-1040 这一段比对结果并不理想,很明显不符合实际情况。
我们选择这一段区域,点击‘Align’ - ‘Realign selected block’
似乎规律了一些,但是我们分析时还是需要考虑这一段是否是我们分析所需要的,有没有必要剔除。
BMGE过滤修剪多重比对结果
多重比对对齐包含高变异和保守区域。因此,在基因的某些部分中,核苷酸的同源性很明显,但在其他部位中变异度非常高。为了避免在下游系统发育分析中对比对误差产生的问题,我们将基于gap的比例和这些区域内发现的遗传变异来识别不良的区域,我们将从比对结果中排除它们。
bmgen -i seq_aln.fasta -t DNA -of seq_filtered.fasta -oh seq_filtered.html
当我们增加gap的比例时,BMGE会选择更多的区域
bmgen -i seq_aln.fasta -t DNA -g 0.3 -of seq_filtered.fasta -oh seq_filtered.html
基于密码子的手动对齐
同样的,先经过MAFFT的多重比对。
接下来便交给Aliview
下图是核苷酸序列经过多重比对的结果
我们使用工具栏的第四个图标将核苷酸转换成氨基酸:
接着点击Sigma图表计算终止密码子数目,发现有三个终止密码子。
我们依次点击sigma旁边的按钮选择比对结果最好的一个。
接着,删除首尾区域,首位不对齐主要原因并不是因为生物分化巨大,而是由于数据缺失。
之后我们检查中间区段是否有大量gap存在,进行手工删除。
至此,我们便得到了较为准确的多重比对结果。