使用GENBANK数据进行分子系统发育树的构建

本文介绍了如何利用GenBank数据库获取序列数据,并通过BEAST工具进行分子系统发育树的构建。首先,详细阐述了如何从GenBank获取特定物种的序列GI号,然后展示了使用R脚本读取GenBank数据并转化为fasta格式的过程。接着,使用ClustalX2进行序列对齐,Mesquite进行格式转换,以满足BEAST的输入要求。最后,详细描述了在BEAUti中配置BEAST参数,包括分子钟模型、树模型、校准点等,并在Linux服务器上运行BEAST,使用Tracer分析结果,通过TreeAnnotator得到合议树。
摘要由CSDN通过智能技术生成

一、引言

    GENBANK是目前最大而权威的分子序列数据库,调用其中数据可以进行分子系统发育树的构建。

1、序列数据获取(以皿蛛系统发育树为例)

     在GenBank中,每一个物种或阶元都有一个taxid,他是taxa的ID。而且taxa之间存在父子关系。我们的研究对象是蜘蛛目(Aranaea),其taxaid为6893,其父级阶元是蛛形纲(Arachnida),taxaid为6854。按照递归查询的原则,只要有自6893以下所有taxa的父子关系对照表,就能查询到目前在GenBank中记录的所有蜘蛛的名录。事实上,这个想法已经可以实现了!NCBI有一个public的ftp(ftp.ncbi.nlm.nih.gov),从中的/pub/taxonomy/taxdmp.zip压缩包中可以下载到相应的信息。taxadmp.zip含有9个文件,其中比较重要的是其中的names.dmp和nodes.dmp。通过查看readme.txt文档,得知其中names.dmp为genbank中所有taxaid的基本信息,nodes.dmp为taxaid有关父子关系的信息。将两个文件通过NCBI_TAXDMP_NAMES.nopi和NCBI_TAXDMP_NODES.nopi导入文件导入到DB中,再递归查询并筛选出属于6893以下阶元的文件,便可得到GenBank中有记录的所有spider的名录。在我的DB中,导入的这两个表称为NCBI_TAXDMP_NAMES和NCBI_TAXDMP_NODES。为了和DB中其他表格协同,特新建了MV_SIG_TAXDMP_NAMES和MV_SIG_TAXDMP_NAMES_ID两个物化视图。

         在Gen其每一条序列数据都有唯一的GI号,它就是序列的身份证。在得知TaxaID后,建立GI、Gene和TaxaID的对应关系就十分重要。在DB中,这个表称为SIG_NUCL,它有4个字段,分别是tax_id,GI,Gene和Flag。其中,Gene的外键是SIG_Gene表中值。由于同一个taxa的某一个基因可能有多个序列,且长短不一,最终要选哪个必须由研究者手动来定,所以表中增设了Flag开关,1代表选取某序列,0代表暂存但在计算中不使用。

      以上说得元数据在更新时一定要小心,以免造成破化。建议采用自动手动结合的方式进行更新。


 实战:Linyphiidae分析系统发育树构建。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值