1.简介
ncbi-genome-download是一个可以直接从NCBI上批量下载序列的软件,数据源自refseq数据库和genbank数据库,提供了多种文件格式和特定内容的下载。
2. 安装
利用conda安装
conda install -c bioconda ncbi-genome-download
3. 使用
示例
ncbi-genome-download -g "Saccharopolyspora" bacteria -l "complete,chromosome" -F fasta,gff,protein-fasta,cds-fasta,rna-fasta --flat-output -o Saccharopolyspora
ncbi-genome-download -g "Saccharopolyspora" bacteria -F fasta,gff,protein-fasta,cds-fasta,rna-fasta --flat-output -o Saccharopolyspora --parallel 28
ncbi-genome-download --assembly-accessions GCF_list1 bacteria -F fasta,gff,protein-fasta,cds-fasta,rna-fasta --flat-output -o Streptomyces1 --parallel 28
ncbi-genome-download --assembly-accessions z130 bacteria --section genbank --formats fasta --flat-output --parallel 28
参数说明:
-s:选择数据库(genbank,refseq),默认是refseq数据库
-F:需要下载基因组的格式,可以多种格式同时下载,用逗号隔开,默认是genbank格式
-l:序列组装程度,可以多种格式同时下载,用逗号隔开
-g:需要下载序列的属,后面要指定类群,比如bacteria
-S:下载的具体的菌种名称,用逗号隔开,也可以写入一个文件中,一行一个菌种名称
-o:输出的文件名称
-r:失败时重新连接的次数,默认是0次
--flat-output:将下载的文件输入到一个目录中,不创建新的子文件
--output-folder
指定下载目录,后面可接你想要存放的下载目录,如--output-folder ~/Downloads(下载到当前用户的下载文件夹中)
--parallel 指定线程数
--section 指定下载的数据库,可选['refseq', 'genbank'],默认refseq
--formats 指定下载的文件格式,可选['genbank', 'fasta', 'rm', 'features', 'gff', 'protein-fasta', 'genpept', 'wgs', 'cds-fasta', 'rna-fna', 'rna-fasta', 'assembly-report', 'assembly-stats', 'all'],默认genbank
--assembly-levels 指定下载的基因组组装水平,可选['all', 'complete', 'chromosome', 'scaffold', 'contig'],默认all
--genera 根据菌种名下载,后面可接想要下载的菌种名,如--genera 'Rhizobium alamii'
--taxids 根据NCBI taxonomy ID下载,后面可接想要下载的菌种的taxonomy ID,如--taxids '492774'
--assembly-accessions 根据assembly accession下载,后面可接想要下载的菌种的assembly accession,如--assembly-accessions ‘GCF_000799895.1’