欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!
基因学苑Q群:32798724
应用场景:
如果自己没有测序数据,比如Pacbio数据,nanopore数据等,想要测试一些软件,或者想重复文章的内容,就需要从SRA数据库下载数据。
SRA数据库介绍
https://www.ncbi.nlm.nih.gov/sra/
SRA(Sequence ReadArchive)数据库是NCBI用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent等。我们经常会看到文献中给出数据名字为SRA然后后面接一些数字。我们根据这个SRA的ID就可以进行下载了,然后进行数据的分析,重复文献的分析内容。
根据SRA数据产生的特点,将SRA数据分为四类:
Studies-- 研究课题
Experiments-- 实验设计
Samples-- 样品信息
Runs-- 测序结果集
SRA数据分类
这四种分类有一个层次关系。首先是Studies->Experiments->Samples->Runs。这也是一个研究项目正常的逻辑关系。了解这个层级关系,否则找sra数据就会感觉比较混乱。
一个study可能包含多个Experiment,Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
SRA数据库用不同的前缀加以区分:
ERP或SR