NCBI Datasets 下载序列的利器

NCBI Datasets是一种新的资源,可以让您轻松地从跨NCBI数据库收集数据。您可以使用它来查找和下载基因和基因组的序列、注释和元数据,使用我们的命令行界面(CLI)工具或NCBI Datasets web界面。 

 

下载并安装

下载的链接在这里,根据自己的电脑版本找到相应的安装包 

Command line tools

展示linux系统安装的流程:

 

 1、通过curl安装

下载 datasets: curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/datasets'

下载 dataformat: curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/dataformat'

修改一下权限:chmod +x datasets dataformat

未修改权限前是一个不能执行的文件(这里我用绿色来区分可以执行的命令,即在交互式页面可以直接键入使用,例如linux自带的“ls”命令一样)

修改权限后:

datasets -h #测试你是否安装成功

2、通过conda 进行安装

首先创建一个conda环境: conda create -n ncbi_datasets

然后激活这个环境: conda activate ncbi_datasets

最后通过这条命令进行安装: conda install -c conda-forge ncbi-datasets-cli"<14"

 用法

通过上述的下载,小花相信你已经下载了好了datasets,下面来看看datasets怎么用叭~

基因组的下载

#单独下载某一个基因组信息

datasets download genome accession GCF_000001405.40

#下载某一个物种下的所有的基因组信息

datasets download genome taxon “Candida lusitaniae” 

#下载人类的基因组信息

datasets download genome taxon “human” --filename human_dataset.zip

datasets download genome accession GCF_000001405.40 --filename human_GRCh38_dataset.zip

除此之外,以BioProject 方式下载

datasets download genome accession PRJEB33226 --filename sanger_bioproject_dataset.zip

下面小花列出常用命令,读者可以根据自己的需求进行选择

#下载人类参考基因组

datasets download genome taxon human --reference

#获取注释人类基因组的数据

datasets download genome taxon human --annotated

#以“完整基因组”的装配水平获取人类基因组数据

datasets download genome taxon human --assembly-level complete

#获取2020年1月1日之后发布的人类基因组数据

datasets download genome taxon human --released-after 01/01/2020

#获取T2T联盟提交的人类基因组数据

datasets download genome taxon human --search 'T2T Consortium'

基因的下载

除了基因组的下载,基因的下载也是可以解决的。

#基因的下载

datasets gene accession 

datasets gene gene-id 

通过提供单个或多个基因id(空格分隔)下载基因数据包。如果使用——inputfile选项,每个gene-id应该在单独的一行中。

datasets download gene gene-id 1 2 3 9 10 11 12 13 14 15 16 17

执行如下命令,按基因符号下载基因数据包。

datasets download gene symbol ACRV1 A2M --taxon human 

通过RefSeq核苷酸或蛋白质加入下载基因数据包。

datasets download gene accession NM_020107.5 NP_001334352.2

按物种名称或分类号下载基因资料包。运行以下命令下载所有人类基因的基因数据包。

datasets download gene taxon human

真核基因数据包默认包含转录物、蛋白质序列和元数据,而原核数据包含基因和蛋白质序列,外加元数据。可以选择添加额外的数据文件,或者只在数据包中包含元数据,使用——include一个或多个术语。下面是一些使用——include标志来选择在数据包中包含哪些数据文件的示例。

获取人类BRCA1基因(gene-id: 672)的基因和蛋白质序列:

datasets download gene gene-id 672 --include gene,protein

这个示例中获取了gene-id为672的基因序列ncbi_dataset/data/gene.fna和蛋白质序列ncbi_dataset/data/protein.faa

获取人类BRCA1基因(gene-id: 672)的基因、转录本、CDS和蛋白质序列:

datasets download gene gene-id 672 --include gene,rna,cds,protein

获取一个只有基因数据报告(元数据)的数据包:

datasets download gene gene-id 672 --include none

庞大的基因组的下载方法

#大基因组的下载

1、下载的命令datasets download genome taxon “human”  --dehydrated 

下载显示:

2、解压unzip ncbi_dataset.zip

这样下载ncbi_dataset.zip解压后,你会看到如下的

在压缩包中文件中fetch.txt存储了下载的信息

3、nohup datasets rehydrate --directory ./

运行上述的命令才开始下载相关的基因组的信息。这里的命令挂在了后台,如果中断可以再次提交,会从中断的地方再下载的。这一点对于下载庞大的基因组来讲是非常的有利的。

这里烈建议超过100个基因组以上采用上述的办法,进行下载。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值