RNA-seq流程学习笔记（1）-Ubuntu系统安装SRA数据下载软件Aspera connect和SRT-Toolkit

最新推荐文章于 2024-03-20 09:35:49 发布

垚垚爸爱学习

最新推荐文章于 2024-03-20 09:35:49 发布

阅读量4.8k

点赞数 9

分类专栏： RNA-seq学习笔记

本文链接：https://blog.csdn.net/xiaomotong123/article/details/106144650

版权

本文是分子生物学研究者学习RNA-seq流程的笔记，主要记录了在Ubuntu系统中如何安装SRA数据下载软件Aspera Connect和SRA Toolkit。详细步骤包括使用wget、tar、bash命令进行下载、解压和安装，以及环境变量的设置和软件运行情况的检查。

摘要由CSDN通过智能技术生成

自己本身是做分子生物学的，有关生物信息学的知识接触很少，于是按照自己的习惯从头摸索。参考以下几个文章对Aspera和SRA Toolkits进行下载、设置和使用，这篇文章是对几个文章的综合整理，留做自己以后学习使用。

有关生物信息学数据库，参考：
“生物信息学数据库资源”的文章，里面介绍了几个重要的数据库：NCBI、EBI、UCSC等，知道了需要分析的数据。
SRA数据主要使用两种工具下载

Aspera connect参考：
使用aspera下载.fastq.gz和.sra数据
 从NCBI-SRA和EBI-ENA数据库下载数据
 Ubuntu16.04下利用Aspera下载NCBI-SRA库基因数据
SRA Toolkit参考：
生信软件 | Sratools (操作SRA文件)
安装和使用SRA toolkit
菜鸟自学之——SRA Toolkit 的下载和使用

1. NCBI-SRA和EBI-ENA数据库

—————————————————————————————————————————————
NCBI (National Center for Biotechnology Information，美国国立生物技术信息中心）于1988年11月4日建立，是NIH（美国国立卫生研究院）的NLM（国立医学图书馆）的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。
在NCBI的众多数据库中，有一项是专门保存高通量测序原始数据的，即SRA数据库（ Sequence Read Archive）隶属NCBI，它是一个保存高通量测序原始数据以及比对信息和元数据 (metadata) 的数据库，所有已发表的文献中高通量测序数据基本都上传至此，方便其他研究者下载及再研究。其中的数据则是通过压缩后以.sra文件格式来保存的，SRA数据库可以用于搜索和展示SRA项目数据，包括SRA主页和 Entrez system，由 NCBI 负责维护。SRA数据库中的数据分为Studies, Experiments, Samples和相应的Runs四个层次：