下载sra原始数据(包含储存在sra-sos的数据)

对于一个做生信分析的学生,从NCBI上下载原始的测序文件是一项基本技能。
sra文件可以理解为是fastq的压缩文件。sra文件可以通过SRA Toolkit软件包下载。但是实际上,我尝试了无数次,aspera也装了,但都不能下载。之后在实验室师兄带领下,才学会了一套简单易行的方法。
但是sra toolkit的软件包还是要装的,因为之后需要用其中的fastq-dump把sra转换成fastq文件。

现在推荐

(1)从SRA/GEO数据库中获取到数据的SRR编号等信息,
(2)从ENA上直接获取数据的下载链接。ENA首页:https://www.ebi.ac.uk/ena/browser/home
在这里插入图片描述
如果获取到数据SRR编号,直接放到右上角第二个搜索框(Enter accession)去搜索即可,如果是GSM,SRX等信息,放到右上角第一个搜索框(Enter text search terms)去搜索即可。
在这里插入图片描述
之后能从页面中看到数据的下载链接,建议下载fastq的gz压缩格式,下载下来的数据就直接可以用了。ENA也提供了下载sra格式数据的链接
在这里插入图片描述(3)数据下载:数据下载建议使用ascp下载。下面的链接其实就是来自ENA
ftp://ftp.sra.ebi.ac.uk/vol1/fastq
ascp -QT -l 300m -P33001 -i ~/anaconda3/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR032/SRR032087/SRR032087.fastq.gz ./
其实更建议使用IDM进行下载,也是多线程的,而且极其稳定。windows电脑IDM安装链接:https://pan.baidu.com/s/1ZQihP4W1_IDuA7dUU2ItgQ
提取码:f4yl
当然,也可以直接点击ENA上的链接进行下载,只不过是单线程的,下载速度会慢很多。

ENA听说是欧洲的一个数据库,会定期把NCBI上的sra数据库和日本的那个测序数据库上的数据搬过来。所以,发表了一段时间的数据,都能从ENA上找到,绝对不会让你失望。但是如果是最近一两天发表的数据,还真有可能从ENA上找不到,那就直接从sra上下载了。

当然sra上现在也可以直接下载fastq格式的数据了。下图中右下角的链接就可以直接下载,也可以复制链接到IDM,多线程快速下载。只不过下载pair-end数据时,两个fastq文件会以一个文件的格式下载,需要自己拆分,很麻烦。
在这里插入图片描述

现在可以使用的链接

sra:https://trace.ncbi.nlm.nih.gov/Traces/sra-reads-be/fastq?acc=SRR13450889
更改SRR号即可

获取想要的data的SRR号

发表的文章后面都是有GEO accession号的,以JIPB上的这篇文章为例 paper_link,我们翻到后面的MATERIALS AND METHODS部分,就能找到原始数据对应的GEO号:GSE124486
登陆ncbi的GEO DataSets GEO DataSets,输入GEO号,搜索。(当然,也可以直接在这里搜索自己想要的文章,关键词等)
在这里插入图片描述
在这里插入图片描述
点击页面results的第一个直接进
在这里插入图片描述
可以发现,accession下共有16个samples,点击其中一个,以GSM3530722为例,点击进入
在这里插入图片描述
这一个页面就是对这组数据的建库信息的介绍,在页面靠下方部分,有一个sra链接:SRX5180319,是这个实验的实验号,再次点击
在这里插入图片描述
这一页其实就是关于这个实验的介绍了。页面Runs(run可以理解为就是原始数据的意思,我也不知道为什么要用run这个词。。)部分有两个链接,其中一个链接就是这个实验原始数据SRR号,但是点击了之后并不会直接下载,而是跳到一个对这个实验原始数据信息进行介绍的页面,这个就不介绍了。回过头来,原来的页面的上方是有两个All experiments链接的,一个是该study的,一个是该sample的,点击第一个链接
在这里插入图片描述
然后点击页面右上部的Send to,选择File,下面的Format选择RunInfo,然后Create File,就会下载下来一个csv文件,使用excel打开,就能得到多组数据的SRR号,具体页面如下。(同时,我们应该理解到,如果我们直到这个SRX开头的实验号,直接在SRA中搜索,那么就能直接到达该页面)
在这里插入图片描述

里面第一列就是SRR号,各种基本信息以及下载该数据的完整链接。
同时,如果我们点击之前页面第一个All experiments 后面的All Runs链接,就会到达下面的页面
在这里插入图片描述
RunInfo Table也能得到数据的各种信息,但是其中没有下载链接
不过,通过该页面也会发现,DATASTORE provider只有一个是ncbi,另外两个是sra-sos.

下载SRR号对应的原始数据

SRR数据如果是储存在ncbi上的话
例如上图中的SRR8370181,我们可以通过lftp下载。首先,我们在浏览器上看一下到底是什么情况:
在浏览器上输入:ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ (ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/已不能用)
ftp具有很好的可视化页面,我们可以像操作windows系统中文件夹那样点击操作
得到以下页面
在这里插入图片描述
点击SRR,我们要下载的是SRR8370181对应的文件,那么就找到SRR837文件夹(也可以在浏览器网址后面直接添加SRR837),然后再找到SRR8370181文件夹
此时的网址为:ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR837/001/SRR8370181 (/ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181已不能用)
内容为:
在这里插入图片描述
其实上再点击这个SRR8370181.sra就可以下载到电脑上了。
但是,毕竟下载好了还得传到服务器上,太麻烦。不如直接利用lftp下载到服务器上。
在服务器上:

>lftp  ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR837/001/SRR8370181

就进入到了该文件夹下,之后的操作就和在服务器上的操作一样,ls 列出文件夹下的文件,cd… 进入上一层文件夹,pget设置多线程进行下载

lftp ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181> ls
-r--r--r--   1 ftp      anonymous 1441021774 Dec 26 18:59 SRR8370181.sra
lftp ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181> pget -n 16 SRR8370181.sra &

这样就可以下载到服务器上了,下载下来的文件名称也是SRR8370181.sra
如果文件比较多的话,还是推荐这种方式,多个任务并行下载,很快就能搞定,特别是学校ftp不限速的话。
但是,在下载SRR8370179时,就会出现一个问题

lftp ftp.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370181> cd ../SRR8370179
cd: Access failed: 550 /sra/sra-instant/reads/ByRun/sra/SRR/SRR837/SRR8370179: No such file or directory

我们直接在浏览器ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR837/ 网页下去看时,也会发现,SRR837文件夹下根本就没有SRR8370179文件夹

这就是之前说的问题了,SRR8370181的DATASTORE provider是ncbi,而SRR8370179的DATASTORE provider是sra-sos,也就是说,这个数据压根就不在ncbi上。。
之前也说了,拿到的csv文件夹里有对应的SRR号以及其下载链接
例如:SRR8370179对应的链接即为:https://sra-download.ncbi.nlm.nih.gov/sos/sra-pub-run-2/SRR8370179/SRR8370179.1,那么,在服务器上

>wget https://sra-download.ncbi.nlm.nih.gov/sos/sra-pub-run-2/SRR8370179/SRR8370179.1

就可以下载了。下载下来的文件名字为SRR8370179.1

sra转换为fastq文件

之前也说过,sra文件可以理解为fastq文件的压缩。这里就要使用SRA Toolkits包里面的fastq-dump了。如果想省空间的话,那么就加上–gzip这个命令。

>fastq-dump --gzip SRR8370181.sra

即可将文件转换为fastq文件,这组数据是单端测序的,那么上面命令就可以了。如果是双端测序,那么可以加上 一个 --split-files命令,即

>fastq-dump --gzip --split-files SRR8370181.sra

即可将文件转换为paired end的两个fastq文件。
同时,对于SRR8370179.1,是没有sra格式的后缀,其实这个不影响,一样的处理就行了

>fastq-dump --gzip SRR8370179.1

一样可以转化为fastq文件。如果真的是有强迫症的话,直接

>mv SRR8370179.1 SRR8370179.sra

就是了。

评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值