怎么做好多重比对(Multiple sequence alignment)?

需要用到的软件

  1. MAFFT:多重比对,conda下可以直接安装;也可以通过在线网站https://mafft.cbrc.jp/alignment/server/
  2. AliView:可视化比对结果,http://www.ormbunkar.se/aliview/
  3. BMGE:用于移除比对效果差的区域,conda下直接安装

MAFFT多重比对和Aliview的可视化

下面介绍command lind 和 online两种方法。

command

mafft --auto seqence.fasta > sequence_aln.fasta

--auto表示自动选择算法

online

在网站上选择上传你的fasta文件或者复制到选框中,其他选项暂时保持默认。点击最下方的submit。

结果

无论哪种方法,在选择--auto时,都会报告出多重比对使用的算法:
在这里插入图片描述
点击上方的‘Fasta format’进行下载。

补充

前面我们使用的是自动选择算法并保持参数默认。此时的空位罚分是1.53,软件会选择合适的算法,但是不能够自己修改参数,如果需要更好的比对效果,需要自己定义空位罚分,下面我们设定罚分为2。(如果图省事可以使用默认的参数)

mafft --auto --op 2 seq.fasta > seq_op2_aln.fasta

将两个比对结果用Aliview可视化结果如下:

op=1.53
在这里插入图片描述

op=2
在这里插入图片描述

从图上我们看到,比对长度不一致,当罚分增加时,gap会变少。这符合生物进化规律,基因突变的概率总是比从获得一段外源基因高。

Aliview纠正比对结果

图上可以看到 1020-1040 这一段比对结果并不理想,很明显不符合实际情况。
在这里插入图片描述

我们选择这一段区域,点击‘Align’ - ‘Realign selected block’
在这里插入图片描述
似乎规律了一些,但是我们分析时还是需要考虑这一段是否是我们分析所需要的,有没有必要剔除。

BMGE过滤修剪多重比对结果

多重比对对齐包含高变异和保守区域。因此,在基因的某些部分中,核苷酸的同源性很明显,但在其他部位中变异度非常高。为了避免在下游系统发育分析中对比对误差产生的问题,我们将基于gap的比例和这些区域内发现的遗传变异来识别不良的区域,我们将从比对结果中排除它们。

bmgen -i seq_aln.fasta -t DNA -of seq_filtered.fasta -oh seq_filtered.html

在这里插入图片描述

当我们增加gap的比例时,BMGE会选择更多的区域

bmgen -i seq_aln.fasta -t DNA -g 0.3  -of seq_filtered.fasta -oh seq_filtered.html

在这里插入图片描述


基于密码子的手动对齐

同样的,先经过MAFFT的多重比对。
接下来便交给Aliview
下图是核苷酸序列经过多重比对的结果
在这里插入图片描述
我们使用工具栏的第四个图标将核苷酸转换成氨基酸:
在这里插入图片描述
接着点击Sigma图表计算终止密码子数目,发现有三个终止密码子。
我们依次点击sigma旁边的按钮选择比对结果最好的一个。
接着,删除首尾区域,首位不对齐主要原因并不是因为生物分化巨大,而是由于数据缺失。
之后我们检查中间区段是否有大量gap存在,进行手工删除。
至此,我们便得到了较为准确的多重比对结果。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值