NCBI Datasets 下载序列的利器

叁叁137

于 2023-12-18 17:55:51 发布

阅读量1.5k

点赞数

文章标签： linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_60157921/article/details/135066340

版权

NCBI Datasets是一种新的资源，可以让您轻松地从跨NCBI数据库收集数据。您可以使用它来查找和下载基因和基因组的序列、注释和元数据，使用我们的命令行界面(CLI)工具或NCBI Datasets web界面。

下载并安装

下载的链接在这里，根据自己的电脑版本找到相应的安装包

Command line tools

展示linux系统安装的流程：

1、通过curl安装

下载 datasets: curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/datasets'

下载 dataformat: curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/v1/linux-amd64/dataformat'

修改一下权限：chmod +x datasets dataformat

未修改权限前是一个不能执行的文件（这里我用绿色来区分可以执行的命令，即在交互式页面可以直接键入使用，例如linux自带的“ls”命令一样）

修改权限后：

datasets -h #测试你是否安装成功

2、通过conda 进行安装

首先创建一个conda环境: conda create -n ncbi_datasets

然后激活这个环境: conda activate ncbi_datasets

最后通过这条命令进行安装: conda install -c conda-forge ncbi-datasets-cli"<14"

用法

通过上述的下载，小花相信你已经下载了好了datasets，下面来看看datasets怎么用叭～

基因组的下载

#单独下载某一个基因组信息

datasets download genome accession GCF_000001405.40

#下载某一个物种下的所有的基因组信息

datasets download genome taxon “Candida lusitaniae”

#下载人类的基因组信息

datasets download genome taxon “human” --filename human_dataset.zip

datasets download genome accession GCF_000001405.40 --filename human_GRCh38_dataset.zip

除此之外，以BioProject 方式下载

datasets download genome accession PRJEB33226 --filename sanger_bioproject_dataset.zip

下面小花列出常用命令，读者可以根据自己的需求进行选择

#下载人类参考基因组

datasets download genome taxon human --reference

#获取注释人类基因组的数据

datasets download genome taxon human --annotated

#以“完整基因组”的装配水平获取人类基因组数据

datasets download genome taxon human --assembly-level complete

#获取2020年1月1日之后发布的人类基因组数据

datasets download genome taxon human --released-after 01/01/2020

#获取T2T联盟提交的人类基因组数据

datasets download genome taxon human --search 'T2T Consortium'

基因的下载

除了基因组的下载，基因的下载也是可以解决的。

#基因的下载

datasets gene accession

datasets gene gene-id

通过提供单个或多个基因id(空格分隔)下载基因数据包。如果使用——inputfile选项，每个gene-id应该在单独的一行中。

datasets download gene gene-id 1 2 3 9 10 11 12 13 14 15 16 17

执行如下命令，按基因符号下载基因数据包。

datasets download gene symbol ACRV1 A2M --taxon human

通过RefSeq核苷酸或蛋白质加入下载基因数据包。

datasets download gene accession NM_020107.5 NP_001334352.2

按物种名称或分类号下载基因资料包。运行以下命令下载所有人类基因的基因数据包。

datasets download gene taxon human

真核基因数据包默认包含转录物、蛋白质序列和元数据，而原核数据包含基因和蛋白质序列，外加元数据。可以选择添加额外的数据文件，或者只在数据包中包含元数据，使用——include一个或多个术语。下面是一些使用——include标志来选择在数据包中包含哪些数据文件的示例。

获取人类BRCA1基因(gene-id: 672)的基因和蛋白质序列:

datasets download gene gene-id 672 --include gene,protein

这个示例中获取了gene-id为672的基因序列ncbi_dataset/data/gene.fna和蛋白质序列ncbi_dataset/data/protein.faa

获取人类BRCA1基因(gene-id: 672)的基因、转录本、CDS和蛋白质序列:

datasets download gene gene-id 672 --include gene,rna,cds,protein

获取一个只有基因数据报告(元数据)的数据包:

datasets download gene gene-id 672 --include none

庞大的基因组的下载方法

#大基因组的下载

1、下载的命令datasets download genome taxon “human” --dehydrated

下载显示：

2、解压unzip ncbi_dataset.zip

这样下载ncbi_dataset.zip解压后，你会看到如下的

在压缩包中文件中fetch.txt存储了下载的信息

3、nohup datasets rehydrate --directory ./

运行上述的命令才开始下载相关的基因组的信息。这里的命令挂在了后台，如果中断可以再次提交，会从中断的地方再下载的。这一点对于下载庞大的基因组来讲是非常的有利的。

这里烈建议超过100个基因组以上采用上述的办法，进行下载。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。