在进化生物学研究中,构建分子系统发育树一般选取低速进化(Slow-Evolving)且有种属特异性的基因片段进行分析。为提高结果的置信度,一般采取多基因组合分析的方法。
常用的技术路线是:首先,自己测序或从NCBI下载所需基因,之后使用Clustal或MAFFT等软件对序列进行对齐,最后按物种将所选基因片段拼接成用于构建分子系统发育树的全序列。
其中,最后一个过程——序列拼接往往需要手工完成。此过程既费事又容易出错。因此,本文作者开发了一个程序---MergeSeq,用于用于多基因序列的自动化拼接。
一、运行环境
Linux系统(如CentOS 6)
二、使用方法
运行MergeSeq所需的4个参数如下:
-d [包含所有对齐后待拼接序列的fasta格式文件](如merge.dat/merge.fasta)。运行MergeSeq前,可手动或用cat命令将不同基因对齐后的fasta文件拼合成一个文件。
-m [物种-基因名矩阵](如merge.matrix)。
假设有3个物种,每个物种由5个基因拼接成全序列,以每个基因的AC号作为基因片段的ID。merge.dat为包含以下内容的文本文件(一定要用UNIX编码,下同)。
taxon1,AC1,AC2,AC3,AC4,AC5
taxon2,AC6,{NAb// /-},AC8,AC9,AC10
taxon3,AC11,{NAgeneA// /-},AC13,{NAgeneB// /-},AC15
矩阵中有两个以大括号表示的通配符{NAx// /-},代表未找到该物种此基因的序列,此字段为缺失值。未保证全序列总长不变,缺失值字段须用等长的占位符“-”填充。通配符中x一般用该字段所对应的基因名(如CO1)标识。
-n [基因名-缺失值长度矩阵] (如NA.matrix)。
此文本文件每条记录包含2个字段:基因名,缺失值长度,字段间用","分隔。如:
CO1,565,
H3,328
MergeSeq会逐条识别该矩阵记录,并为每列缺失值自动填充对应长度的占位符"-"。
-o 拼合后fasta文件保存文件名
包含所有参数的命令行如下:
MergeSeq -d "merge.dat" -m "merge.matrix" -n "NA.matrix" -o "L122.fasta"
附件: