使用多基因构建ML树时,需要将不同基因分区,以保证各基因估算出不同的进化速率。如有5个基因,最少要分5区。
如有蛋白质基因(如CO1,H3),由于蛋白质3rd Coden 密码子的摆动性,需要将1st,2nd Coden分成一区,3rd Coden分成一区,用XX-XX\3的形式书写(相见RaxMl或IQTREE的使用说明)。
那么,如何判断蛋白质基因中每一个位点属于那个密码子位点呢?可以先看NCBI中translation字段给出的该基因翻译出的蛋白质编码,再用Seaview软件翻译对齐好的序列,看序列对齐的起点是哪里。如果Seaview结果与NCBI不一致,可尝试在序列前端添加若干“-”,直至翻译出的蛋白序列与NCBI的吻合(可以用Seaview的Creat Set功能辅助标记1st-2nd Coden位置)。这样,看原始第一个位点属于哪位密码子,则以后依此类推就能得出结论。