数据下载（1）：NCBI下载文献中的基因组

Ming314!

已于 2025-05-21 15:52:01 修改

阅读量991

点赞数 14

分类专栏：生物信息学宏基因组/组学分析文章标签：经验分享

于 2025-03-18 15:33:54 首次发布

本文链接：https://blog.csdn.net/weixin_57129211/article/details/146341757

版权

生物信息学同时被 2 个专栏收录

7 篇文章

订阅专栏

宏基因组/组学分析

6 篇文章

订阅专栏

学习记录，以下载《Functional traits and adaptation of lake microbiomes on the Tibetan Plateau》中的宏基因组为例。

1、找到SRP项目号

1.1、找到文章Data availablity中的NCBI编号

这里要说明一下这些编号的含义：

在NCBI、ENA（欧洲核酸档案馆）和DDBJ（日本DNA数据库）中，PRJNA、PRJEB和PRJDB是用于标识生物测序研究项目（BioProject）的编号前缀，属于国际核苷酸序列数据库联盟（INSDC）的标准命名规则。

PRJNA

所属数据库：NCBI BioProject（美国国家生物技术信息中心）。
含义：以PRJNA开头的编号（如PRJNA725666）是NCBI BioProject数据库中的唯一项目标识符。
用途：
标识一个完整的测序研究项目（例如基因组测序、转录组分析、宏基因组研究）。
关联该项目的所有子数据（如样本、实验、原始测序数据）。

示例：
PRJNA725666：新冠病毒基因组监测项目。
包含子数据：SRA测序数据（如SRR14445601）、样本信息（如SAMN18927417）。

SRA登录号（Sequence Read Archive）

含义：标识高通量测序原始数据，格式为SRR/SRX/SRS+数字（如SRR1234567）。
层级关系：
SRP：研究项目（Study）。
SRS：样本（Sample）。
SRX：实验（Experiment）。
SRR：测序运行数据（Run）。

用途：下载原始测序数据（如RNA-Seq、ChIP-Seq）。

1.2、打开NCBI官网

National Center for Biotechnology Information (nih.gov)

直接输入NCBI的编号

搜索后出现bioproject

根据上面编号的含义，我们应该下拉找SRA

这个里面就是这篇文章包含的所有数据，我们选择其中一个打开

这里面就有它的基本信息，可以看到有SRP443144，这个就是研究项目的编号。

2、进入NCBI SRA数据库搜索项目界面，输入SRP编号

https://www.ncbi.nlm.nih.gov/Traces/study/

进入后，下面这个 Found 169 items，就是测序数据。

我们选择我们需要的数据，然后在select部分选择Selected的Accession list 下载下来。

3、下载

3.1 SRA Toolkit工具下载

下载地址：https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit

这个里面有很多可以选择，我选择的是windows系统的，我个人觉得方便一些，习惯使用linux系统的同学也可以下载linux版本。

windows下载之后就是一个zip的压缩包，解压之后就可以直接使用了。

3.2 批量下载

将Accession list放在bin的文件夹下面

然后使用NCBI的SRA Toolkit进行批量的下载，程序会逐个下载各个样本的数据，一个样本一个文件夹，每个文件夹里面都是一个sra文件

prefetch.exe --option-file SRR_Acc_List.txt

得到的sra文件不能直接使用，要转换成fastq文件

fastq-dump -I --split-files SRR1234567.sra

SRR1234567.sra是下载的数据文件名及后缀。得到fastq双端测序数据后就可以进行后面的分析啦

小Tips：

1、终端如何调出

我们已经选择windows系统的SRA Toolkit了，就说明我们对于这些指令可能并不熟悉，所以这条是写给不太熟悉代码操作的同学的，大佬可以跳过哈

因为这个还需要写明你的路径（如下图），所以最直接的方式就是在这个文件夹的空白地方右击，就会显示一个在终端中打开，选择后，打开的终端就是你的操作路径了，简单直接。

2、代码报错

可以在上图中看的，我的代码前面加了一个.\ 这个也是我在运行中出现的问题，明明可以找到文件但还是不能运行，加一个.\ 就可以了。

3、转换成fastq时报错

我们下载sra文件时，是一个样本一个文件夹，每个文件夹里面都是一个sra文件，所以我们下意识的可能会在sra的文件夹里单独操作，这个时候就会报错，是因为：我们是依赖bin下面的这些exe进行操作的，所以sra文件夹中并没有这个exe，我们只需要把exe结尾的都复制进去，再输入代码，就可以正常操作啦~