Getfasta--根据Acession Number(Ac号)批量下载GenBank分子序列数据的自动化程序

本文介绍了一款名为Getfasta的程序,它能自动化批量下载GenBank的分子序列数据。通过解析ACLIST文件,Getfasta可按AC号下载fasta文件,适用于构建分子系统发育树。用户需在Linux环境下运行,程序支持指定基因片段和以taxon名称或TID作为序列标签。运行过程中会产生日志、ft2和fasta格式的输出文件。
摘要由CSDN通过智能技术生成

   推断分子系统发育树时,很多分子序列数据都是从GenBank等公共数据库下载的。当数据很多时,每条序列都要检索、下载十分耗时,而且容易出错。作者基于NCBI官方提供的Entrez direct软件包,二次开放了能批量下载GenBank分子序列数据的程序——Getfast。此程序能解析用户提供的ACLIST文件,并自动下载生成包含所有序列的fasta文件,供构建分子系统发育树使用。

一、运行环境

       Linux系统,安装有NCBI的Entrez direct软件包

 

二、使用方法

1. 准备aclist文件(见示例L122_16S.aclist)。在GenBank中,每一条序列都有唯一的“ID号”--ACCESSION(简称AC号。如KT003151:代表皿蛛Nippononeta coreana的 16S 核糖体 RNA基因片段,长度401bp)。用户将所需下载序列的AC号列表保存到扩展名为".aclist"的文本文件中,AC号间用半角逗号","分隔。注意:aclist中所有序列必须为同源序列,既相同基因的片段。

2. 运行Getfasta(见示例L122.sh)。运行Getfasta添加如下参数:

      -f  “[aclist文件路径]”(如“$DIR/L122_16S.aclist”)(必填)

      -g “[同源序列的产物名]” (如“16S ribosomal RNA”)(选填,当aclist中的一条或多条序列包含多个多个基因时,须用-g参数限定下载序列中包含指定基因的片段。)

     -t "TAXON"/"T

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值