计算反转录转座子插入时间三:MEGA批量化处理

本文介绍了如何利用MEGA-CC和Python批量处理反转录转座子的K-2模型计算,首先通过MEGA进行序列比对和遗传距离计算,然后通过命令行调用MEGA-CC处理大量文件,最后结合Python脚本得出插入时间,并用R绘制了棒棒糖图展示结果。
摘要由CSDN通过智能技术生成

得到了成对的LTRs后,可根据两条LTR序列的不同,根据K-2模型计算K——每个核苷酸位点的平均替代数,使用MEGA进行计算。由于文件众多,需要多次处理,使用MEGA-cc进行处理。安装方法参考https://blog.csdn.net/g_r_c/article/details/22602071

安装完成后,打开MEGA,点击右下角PROTOTYPE,进入模拟模式,选择序列类型(我使用Nucleotide non-coding)ALIGN——MUSCLE,使用默认参数点击确定生成比对配置文件*.mao。

在命令行中调用MEGA-CC:
M6CC.exe -a *.mao -d inputfile -o outputfile
由于文件很多,将其路径及文件名写入mytest.txt,然后调用MEGA-CC:
M6CC.exe -a *.mao -d mytest.txt -o outputfile
完成后进入MEGA模拟模式,选择序列类型——DISTANCE,使用以下参数生成计算遗传距离配置文件:
在这里插入图片描述

以上一步比对的结果为输入,运行MEGA-CC,得到一系列遗传距离文件,位于同一文件夹下,使用python脚本批量计算插入时间:

import os
import sys
import xlrd
def get_insert_time(distancefile, dict):
    distancebook = xlrd.open_workbook(distancefile)
    sheet_names = distancebook.sheet_names()
    #print(sheet_names)
    worksheet = distancebook.sheet_by_index(0)
    #print(worksheet)
    name = worksheet.name
    #print(name)
    nrows = worksheet.nrows
    ncols = worksheet.ncols
    nrow_name = []
    for i in range(nrows):
        ltrname = worksheet.row_values(i)[0]
        eachdistance = workshee
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值