SRA下载及安装
1、简介
SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。
根据SRA数据产生的特点,将SRA数据分为四类:
Studies-- 研究课题
Experiments-- 实验设计
Runs-- 测序结果集
Samples-- 样品信息
SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.
Studies是就实验目标而言的,一个study 可能包含多个Experiment。
Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
一个Experiment可能包含一个或多个runs。
Runs 表示测序仪运行所产生的reads。
SRA数据库用不同的前缀加以区分:
ERP或SRP表示Studies;
SRS 表示 Samples;
SRX 表示 Experiments;
SRR 表示 Runs;
2.安装 SRA Toolkit
2.1 工具下载
1.从ncbi下载sratoolkit工具,打开ncbi,到这个界面根据系统下载你需要的sratoolkit,我是Windows 64位。
NCBI网站
2.2.下载后解压
把下载的sratoolkit解压,解压到自己需要的盘,我解压到F盘,文件夹名就是工具名
2.3.配置系统环境变量
快捷键win+R,输入sysdm.cpl,打开配置path,点击环境变量,再点击系统变量的path,点击新建,把你存放sratoolkit的路径复制黏贴加上去,最后点击确定。
上述步骤完成环境变量的配置。
2.4.运行cmd看sratoolkit是否可以使用
同样快捷键win+R,输入cmd打开命令行,输入f:,进入d盘,再cd 文件名,进入存放sratoolkit的目录
接着输入bin\prefetch.exe -h,可以查看prefetch是否正常运行,我一开始是报错的,显示要我配置,报三行代码,我就根据这个输入vdb-config --interactive,出现配置界面,直接退出,再运行bin\prefetch.exe -h,显示帮助信息,就是安装成功。
三、数据下载
3.1.从ncbi的sra数据库搜索想要的序列号,我是找的活性污泥微生物宏基因组数据的,搜索出结果选择序列号下载
下载后会生成一个SRR_Acc_List.txt文件,里面都是序列号。
3.2.使用prefetch下载.sra,可以批量下载,也可以单独下载
3.2.1 单独下载:
3.2.2 批量下载,输入,bin\prefetch.exe --option-file 序列号文件的存放路径,并得到以下结果
完成SRA数据下载。
四.将sra格式转化为fastq数据格式
.sra文件下载完成后,则可以运行cmd, 进入到相应的SRA文件,我这里以SRR000199为例。
执行:
fastq-dump SRR000199
即可将.sra转化为fastq格式。
经过上述步骤,即可完成由SRA Toolkit工具包安装—>数据下载—>数据格式转化。为后续reads拼接/组装奠定基础。
参考:
SRA到fastq格式的批量转换
Windows系统下载SRA数据,使用sratoolkit工具