MergeSeq--多基因序列拼接工具

          在进化生物学研究中,构建分子系统发育树一般选取低速进化(Slow-Evolving)且有种属特异性的基因片段进行分析。为提高结果的置信度,一般采取多基因组合分析的方法。

        常用的技术路线是:首先,自己测序或从NCBI下载所需基因,之后使用Clustal或MAFFT等软件对序列进行对齐,最后按物种将所选基因片段拼接成用于构建分子系统发育树的全序列。

            其中,最后一个过程——序列拼接往往需要手工完成。此过程既费事又容易出错。因此,本文作者开发了一个程序---MergeSeq,用于用于多基因序列的自动化拼接。

一、运行环境

        Linux系统(如CentOS 6)

二、使用方法

     运行MergeSeq所需的4个参数如下:

      -d  [包含所有对齐后待拼接序列的fasta格式文件](如merge.dat/merge.fasta)。运行MergeSeq前,可手动或用cat命令将不同基因对齐后的fasta文件拼合成一个文件。

      -m [物种-基因名矩阵](如merge.matrix)。

               假设有3个物种,每个物种由5个基因拼接成全序列,以每个基因的AC号作为基因片段的ID。merge.dat为包含以下内容的文本文件(一定要用UNIX编码,下同)。

               taxon1,AC1,AC2,AC3,AC4,AC5

                taxon2,AC6,{NAb// /-},AC8,AC9,AC10

                taxon3,AC11,{NAgeneA// /-},AC13,{NAgeneB// /-},AC15

矩阵中有两个以大括号表示的通配符{NAx// /-},代表未找到该物种此基因的序列,此字段为缺失值。未保证全序列总长不变,缺失值字段须用等长的占位符“-”填充。通配符中x一般用该字段所对应的基因名(如CO1)标识。

    -n [基因名-缺失值长度矩阵] (如NA.matrix)。

         此文本文件每条记录包含2个字段:基因名,缺失值长度,字段间用","分隔。如:

                                                              CO1,565,

                                                               H3,328

      MergeSeq会逐条识别该矩阵记录,并为每列缺失值自动填充对应长度的占位符"-"。

 

   -o 拼合后fasta文件保存文件名

包含所有参数的命令行如下:

MergeSeq  -d "merge.dat" -m "merge.matrix" -n "NA.matrix" -o "L122.fasta"

附件:

MergeSeq

Example

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值