得到了成对的LTRs后,可根据两条LTR序列的不同,根据K-2模型计算K——每个核苷酸位点的平均替代数,使用MEGA进行计算。由于文件众多,需要多次处理,使用MEGA-cc进行处理。安装方法参考https://blog.csdn.net/g_r_c/article/details/22602071
安装完成后,打开MEGA,点击右下角PROTOTYPE,进入模拟模式,选择序列类型(我使用Nucleotide non-coding)ALIGN——MUSCLE,使用默认参数点击确定生成比对配置文件*.mao。
在命令行中调用MEGA-CC:
M6CC.exe -a *.mao -d inputfile -o outputfile
由于文件很多,将其路径及文件名写入mytest.txt,然后调用MEGA-CC:
M6CC.exe -a *.mao -d mytest.txt -o outputfile
完成后进入MEGA模拟模式,选择序列类型——DISTANCE,使用以下参数生成计算遗传距离配置文件:
以上一步比对的结果为输入,运行MEGA-CC,得到一系列遗传距离文件,位于同一文件夹下,使用python脚本批量计算插入时间:
import os
import sys
import xlrd
def get_insert_time(distancefile, dict):
distancebook = xlrd.open_workbook(distancefile)
sheet_names = distancebook.sheet_names()
#print(sheet_names)
worksheet = distancebook.sheet_by_index(0)
#print(worksheet)
name = worksheet.name
#print(name)
nrows = worksheet.nrows
ncols = worksheet.ncols
nrow_name = []
for i in range(nrows):
ltrname = worksheet.row_values(i)[0]
eachdistance = workshee