NCBI Datasets是一种新的资源,可以让您轻松地从跨NCBI数据库收集数据。您可以使用它来查找和下载基因和基因组的序列、注释和元数据,使用我们的命令行界面(CLI)工具或NCBI Datasets web界面。
下载并安装
下载的链接在这里,根据自己的电脑版本找到相应的安装包
展示linux系统安装的流程:
1、通过curl安装
下载 datasets: curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/datasets'
下载 dataformat: curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/dataformat'
修改一下权限:chmod +x datasets dataformat
未修改权限前是一个不能执行的文件(这里我用绿色来区分可以执行的命令,即在交互式页面可以直接键入使用,例如linux自带的“ls”命令一样)
修改权限后:
datasets -h #测试你是否安装成功
2、通过conda 进行安装
首先创建一个conda环境: conda create -n ncbi_datasets
然后激活这个环境: conda activate ncbi_datasets
最后通过这条命令进行安装: conda install -c conda-forge ncbi-datasets-cli"<14"
用法
通过上述的下载,小花相信你已经下载了好了datasets,下面来看看datasets怎么用叭~
基因组的下载
#单独下载某一个基因组信息
datasets download genome accession GCF_000001405.40
#下载某一个物种下的所有的基因组信息
datasets download genome taxon “Candida lusitaniae”
#下载人类的基因组信息
datasets download genome taxon “human” --filename human_dataset.zip
datasets download genome accession GCF_000001405.40 --filename human_GRCh38_dataset.zip
除此之外,以BioProject 方式下载
datasets download genome accession PRJEB33226 --filename sanger_bioproject_dataset.zip
下面小花列出常用命令,读者可以根据自己的需求进行选择
#下载人类参考基因组
datasets download genome taxon human --reference
#获取注释人类基因组的数据
datasets download genome taxon human --annotated
#以“完整基因组”的装配水平获取人类基因组数据
datasets download genome taxon human --assembly-level complete
#获取2020年1月1日之后发布的人类基因组数据
datasets download genome taxon human --released-after 01/01/2020
#获取T2T联盟提交的人类基因组数据
datasets download genome taxon human --search 'T2T Consortium'
基因的下载
除了基因组的下载,基因的下载也是可以解决的。
#基因的下载
datasets gene accession
datasets gene gene-id
通过提供单个或多个基因id(空格分隔)下载基因数据包。如果使用——inputfile选项,每个gene-id应该在单独的一行中。
datasets download gene gene-id 1 2 3 9 10 11 12 13 14 15 16 17
执行如下命令,按基因符号下载基因数据包。
datasets download gene symbol ACRV1 A2M --taxon human
通过RefSeq核苷酸或蛋白质加入下载基因数据包。
datasets download gene accession NM_020107.5 NP_001334352.2
按物种名称或分类号下载基因资料包。运行以下命令下载所有人类基因的基因数据包。
datasets download gene taxon human
真核基因数据包默认包含转录物、蛋白质序列和元数据,而原核数据包含基因和蛋白质序列,外加元数据。可以选择添加额外的数据文件,或者只在数据包中包含元数据,使用——include一个或多个术语。下面是一些使用——include标志来选择在数据包中包含哪些数据文件的示例。
获取人类BRCA1基因(gene-id: 672)的基因和蛋白质序列:
datasets download gene gene-id 672 --include gene,protein
这个示例中获取了gene-id为672的基因序列ncbi_dataset/data/gene.fna和蛋白质序列ncbi_dataset/data/protein.faa
获取人类BRCA1基因(gene-id: 672)的基因、转录本、CDS和蛋白质序列:
datasets download gene gene-id 672 --include gene,rna,cds,protein
获取一个只有基因数据报告(元数据)的数据包:
datasets download gene gene-id 672 --include none
庞大的基因组的下载方法
#大基因组的下载
1、下载的命令datasets download genome taxon “human” --dehydrated
下载显示:
2、解压unzip ncbi_dataset.zip
这样下载ncbi_dataset.zip解压后,你会看到如下的
在压缩包中文件中fetch.txt存储了下载的信息
3、nohup datasets rehydrate --directory ./
运行上述的命令才开始下载相关的基因组的信息。这里的命令挂在了后台,如果中断可以再次提交,会从中断的地方再下载的。这一点对于下载庞大的基因组来讲是非常的有利的。
这里烈建议超过100个基因组以上采用上述的办法,进行下载。