自己本身是做分子生物学的,有关生物信息学的知识接触很少,于是按照自己的习惯从头摸索。参考以下几个文章对Aspera和SRA Toolkits进行下载、设置和使用,这篇文章是对几个文章的综合整理,留做自己以后学习使用。
- 有关生物信息学数据库,参考:
“生物信息学数据库资源”的文章,里面介绍了几个重要的数据库:NCBI、EBI、UCSC等,知道了需要分析的数据。 - SRA数据主要使用两种工具下载
- Aspera connect参考:
使用aspera下载.fastq.gz和.sra数据
从NCBI-SRA和EBI-ENA数据库下载数据
Ubuntu16.04下利用Aspera下载NCBI-SRA库基因数据 - SRA Toolkit参考:
生信软件 | Sratools (操作SRA文件)
安装和使用SRA toolkit
菜鸟自学之——SRA Toolkit 的下载和使用
1. NCBI-SRA和EBI-ENA数据库
—————————————————————————————————————————————
NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。
在NCBI的众多数据库中,有一项是专门保存高通量测序原始数据的,即SRA数据库( Sequence Read Archive)隶属NCBI,它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库,所有已发表的文献中高通量测序数据基本都上传至此,方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的,SRA数据库可以用于搜索和展示SRA项目数据,包括SRA主页和 Entrez system,由 NCBI 负责维护。SRA数据库中的数据分为Studies, Experiments, Samples和相应的Runs四个层次:
- Study:accession number 以 DRP,SRP,ERP开头,表示的是一个特定目的的研究课题,可以包含多个研究机构和研究类型等。study 包含了项目的所有 metadata,并有一个 NCBI和 EBI 共同承认的项目编号(universal projec