学习目标
-
描述RNAseq和差异基因表达分析工作流程
-
说明实验及其目标
-
描述如何在R中建立RNA-seq项目
差异基因表达分析
在过去的十年中,RNA测序(RNA-seq)已成为转录组范围内差异基因表达和mRNAs差异剪接分析必不可少的工具。正确识别哪些基因/转录物在特定条件下表达发生变化是我们了解受影响的生物学过程的关键。
在此,我们将引导你完成使用各种R包的端到端基因水平RNA-seq差异表达工作流程。我们将从读取从Salmon获得的数据开始,将伪计数转换为计数,进行探索性数据分析以进行质量评估,并探索样本之间的关系,进行差异表达分析,并在进行下游功能分析之前直观地查看结果。
Review of the dataset
在此,我们将使用公开可用的RNA-Seq数据集,该数据集是Kenny PJ et al, Cell Rep 2014.中描述的一项较大研究的一部分。
RNA-Seq在用MOV10转基因或siRNA转染以降低Mov10表达或非特异性(无关)siRNA沉默的HEK293F细胞上进行。这分别导致3个条件Mov10 OE(过表达),Mov10 KD (敲减)和不相关的敲减。重复次数如下所示。
使用这些数据,我们将评估与MOV10表达扰动相关的转录模式。请注意,无关的siRNA将作为我们的对照条件。
这个数据集的目的是什么? Mov10的功能是什么?
作者正在研究脆性X染色体综合征(一种其中FMRP蛋白异常产生的疾病)所涉及的各种基因之间的相互作用。
FMRP“最常见于大脑,对于正常的认知发展和女性生殖功能至关重要。该基因的突变可导致脆性X染色体综合征,智力低下,卵巢早衰,自闭症,帕金森氏病,发育迟缓和其他认知缺陷。” -来自维基百科
MOV10是一种推测的RNA解旋酶,在microRNA途径中也与FMRP相关。
本文的假设是FMRP和MOV10结合并调节某段RNA的翻译。
我们的问题:
- 我们可以通过MOV10的丧失或获得来识别哪些表达模式?
- 两种情况之间是否共享任何基因?
RNAseq工作流程
对于此数据集,从 Sequence Read Archive (SRA)获得原始序列读段。然后,使用该系列(一)中详细介绍的RNA-seq工作流程处理这些reads。所有步骤均在命令行(Linux / Unix)上执行,包括全面的质量控制评估。如果您有兴趣,我们在此处链接了此数据集的MultiQC html报告,供您仔细阅读。
工作流程的映射/量化步骤(Salmon)的输出目录是我们将要使用的数据。这些转录本丰度估计值,通常称为 “伪计数”,将成为我们差异基因表达分析的起点。
开始
在深入了解分析的细节之前,先打开RStudio并为此分析设置一个新项目。
- 转到
File
菜单并选择New Project
。 - 在
New Project
窗口中,选择New Directory
。然后,选择New Directory
。为新目录命名DEanalysis
,然后将“创建项目作为子目录:”桌面(或自定义的位置)。 - 新的project应该在RStudio中自动打开了。
要检查是否在正确的工作目录中,请使用getwd()
。在控制台中应该会返回路径Desktop/DEanalysis
。在工作目录下使用New folder
按钮创建两个新目录:meta
和results
。请记住,好的分析的关键是从一开始就保持井井有条!(注意:我们将会自己下载data
文件夹)
现在,我们需要获取将要用于分析的文件。我们需要下载两个东西。 - 首先,我们需要完整数据集的Salmon结果。右键单击下面的链接,然后选择“将链接另存为…”选项以直接下载到您的项目目录中:
- Salmon data for the Mov10 full dataset