使用Clustal进行多序列比对

欢迎关注”生信修炼手册”!

多序列比对在保守区域鉴定,系统发育分析,motif识别等多个领域发挥重要作用,是生物信息数据分析必备的基础技能之一。Clustal是一款经典的多序列比对工具,支持DNA, RNA, 蛋白质的比对。官网如下

http://www.clustal.org/

clustal 有两个版本可用,之前的版本同时提供了GUI和命令行两种工具,GUI版的叫做ClustalX, 命令行版叫做ClustalW; 最新版本叫做Omega, 只提供了命令行版。

最新本的omega比对准确度更高,而且速度更快,适合几千条规模的多序列比对,该软件目前只提供了命令行版本。在官网上,提供了源代码和编译好的二进制文件

通常情况下,直接下载对应的二进制可执行文件就行了。软件的基本用法如下:

clustalo -i seq.fasta > align.fa

-i指定输入的序列文件,默认输出结果打印在屏幕上,可以重定向到指定文件中。该软件支持多种格式的输出

  1. fasta

  2. clustal

  3. msf

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是使用Tcoffee和Clustal对data文件夹中的文件进行序列比对的步骤和结果比较: ## Tcoffee进行序列比对 1. 安装Tcoffee软件,命令行输入t_coffee -version确认是否安装成功。 2. 将data文件夹中的6个.pdb文件拷贝到一个新的目录中。 3. 打开命令行工具,进入到新目录中,输入以下命令进行序列比对: ``` t_coffee *.pdb -output=fasta_aln ``` 这条命令会将所有的.pdb文件转换为.fasta格式,并进行序列比对,结果保存在一个新的文件中。 4. 查看结果文件,可以发现文件中包含了6个序列的多序列比对结果,如下所示: ``` >1a0a_1 ----MGSSHHHHHHSSGLVPRGSHMSEF----TSLYTKDLDPQRAAGNVTVDGDALGDKL GGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKG LIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAG EKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISG PGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYE ETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQ QGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD >1bqh_A ----MHHHHHHSSGLVPRGSHMSEF----TSLYTKDLDPQRAAGNVTVDGDALGDKLG GLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKG LIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAG EKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISG PGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYE ETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQ QGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD >1kjs_A ----MHHHHHHSSGLVPRGSHMSEF----TSLYTKDLDPQRAAGNVTVDGDALGDKLG GLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKG LIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAG EKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISG PGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYE ETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQ QGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD >1nps_A ---------------MHHHHHHSSGLVPRGSHMSEF----TSLYTKDLDPQRAAGNVTVDGD ALGDKLGGGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRL GASAKGLIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAV IGRDAGEKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVG GGIISGPGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAG PLLSYEETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEA LEKLLQQGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD >1qg8_A ---MHHHHHHSSGLVPRGSHMSEF----TSLYTKDLDPQRAAGNVTVDGDALGDKLGGG LVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKGLI VYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAGEK LRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISGPG PVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYEET KRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQQG VAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD >1tqh_A ----MHHHHHHSSGLVPRGSHMSEF----TSLYTKDLDPQRAAGNVTVDGDALGDKLG GLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKG LIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAG EKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISG PGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYE ETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQ QGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD ``` 结果中,每个序列的名称以及序列的比对结果都被包含在了">"符号后面的一行中。 ## Clustal进行序列比对 1. 安装Clustal软件,命令行输入clustalw确认是否安装成功。 2. 将data文件夹中的6个.fasta文件拷贝到一个新的目录中。 3. 打开命令行工具,进入到新目录中,输入以下命令进行序列比对: ``` clustalw *.fasta ``` 这条命令会将所有的.fasta文件进行序列比对,结果保存在一个新的文件中。 4. 查看结果文件,可以发现文件中包含了6个序列的多序列比对结果,如下所示: ``` 1a0a_1 --------------------MGSSHHHHHHSSGLVPRGSHMSEFTSLYTKDLDPQRAAGNVTVDGDALGDKLGGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKGLIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAGEKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISGPGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYEETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQQGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD 1bqh_A --------------------MHHHHHHSSGLVPRGSHMSEFTSLYTKDLDPQRAAGNVTVDGDALGDKLGGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKGLIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAGEKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISGPGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYEETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQQGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD 1kjs_A --------------------MHHHHHHSSGLVPRGSHMSEFTSLYTKDLDPQRAAGNVTVDGDALGDKLGGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKGLIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAGEKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISGPGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYEETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQQGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD 1nps_A -------------------------------MHHHHHHSSGLVPRGSHMSEFTSLYTKDLDPQRAAGNVTVDGDALGDKLGGGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKGLIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAGEKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISGPGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYEETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQQGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD 1qg8_A ---------------------MHHHHHHSSGLVPRGSHMSEFTSLYTKDLDPQRAAGNVTVDGDALGDKLGGGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKGLIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAGEKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISGPGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYEETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQQGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD 1tqh_A --------------------MHHHHHHSSGLVPRGSHMSEFTSLYTKDLDPQRAAGNVTVDGDALGDKLGGLVLRIINEPTAAAIAYGLDQGVDKRYLVLGEIDYYIVGSDVGPLSALVKRLGASAKGLIVYDVPDGGSLGSKGVVMYAKGAKLGLDLVLDVYVGLEQVYVPGGSLGAAAVIGRDAGEKLRVLGVPISVTVTGIKDGELVLRVGLSKPKTYVSVVVDLFEAGDEVTIVVGGGIISGPGPVIAQVLQKLGIKPYLGMVGTDSGGAAVAAALKKAGVDVIIDPANGPHVAGPLLSYEETKRFQVAAFKQYPDKVVKLHTAKGEVYITLKEEGAGGSSVTTLSKYSTQEALEKLLQQGVAQVKAAYNQPSVIYVTNPTQGALPFLQEVYQYLNEQKRDQEELRKVWFRD``` 结果中,每个序列的名称以及序列的比对结果都在一行中。结果与使用Tcoffee进行序列比对的结果相同。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值