推断分子系统发育树时,很多分子序列数据都是从GenBank等公共数据库下载的。当数据很多时,每条序列都要检索、下载十分耗时,而且容易出错。作者基于NCBI官方提供的Entrez direct软件包,二次开放了能批量下载GenBank分子序列数据的程序——Getfast。此程序能解析用户提供的ACLIST文件,并自动下载生成包含所有序列的fasta文件,供构建分子系统发育树使用。
一、运行环境
Linux系统,安装有NCBI的Entrez direct软件包
二、使用方法
1. 准备aclist文件(见示例L122_16S.aclist)。在GenBank中,每一条序列都有唯一的“ID号”--ACCESSION(简称AC号。如KT003151:代表皿蛛Nippononeta coreana的 16S 核糖体 RNA基因片段,长度401bp)。用户将所需下载序列的AC号列表保存到扩展名为".aclist"的文本文件中,AC号间用半角逗号","分隔。注意:aclist中所有序列必须为同源序列,既相同基因的片段。
2. 运行Getfasta(见示例L122.sh)。运行Getfasta添加如下参数:
-f “[aclist文件路径]”(如“$DIR/L122_16S.aclist”)(必填)
-g “[同源序列的产物名]” (如“16S ribosomal RNA”)(选填,当aclist中的一条或多条序列包含多个多个基因时,须用-g参数限定下载序列中包含指定基因的片段。)
-t "TAXON"/"T