文章目录
概述——使用Salmon计算
该课程的学习目标
- 使用主成分分析(PCA)和层次聚类对计数数据进行质量控制
- 使用DESeq2获得差异基因的列表
- 可视化差异表达基因的表达模式
- 使用基于R的工具对基因列表进行功能分析
需要下载的包
- 使用
install.packages("insert_package_name_in_quotations")
,从CRAN下载包:
BiocManager
devtools
tidyverse
RColorBrewer
pheatmap
ggrepel
cowplot
- 使用
library(BiocManager)
install("insert_first_package_name_in_quotations")
从Bioconductor下载包:
DESeq2
clusterProfiler
DOSE
org.Hs.eg.db
pathview
DEGreport
tximport
AnnotationHub
ensembldb
工作流程(原始数据计数)
学习目标
理解从RNA提取到评估基因表达水平这一整个RNA-seq工作流程的不同步骤。
RNA-seq工作流程
为了进行差异基因表达(DGE)分析,我们需要一个代表基因表达水平的计数矩阵(count matrix)。在统计分析前,更重要的是要理解计数矩阵是如何产生的。
接下来简单介绍bulk RNAseq的RNA-processing pipeline,以及我们从原始测序读段(reads)到基因表达计数矩阵所需的不同步骤。
1. RNA提取和文库准备
在对RNA进行测序之前,必须先将其提取并从细胞环境中分离出来,然后制成cDNA文库。下图概述了其中涉及的许多步骤,同时还进行了各种质量检查,以确保我们拥有高质量RNA能继续实验。我们在下面简要介绍其中一些步骤。
- RNA富集(Enriching for RNA)
用DNA酶处理样品以去除污染的DNA序列后,样品将进行mRNA的选择(polyA选择)或rRNA的去除。
通常,rRNA是细胞中占比最多的RNA,而mRNA仅占总RNA的一小部分,人类约2%。因此,如果要研究蛋白质编码基因,则需要富集mRNA或耗尽rRNA。对于差异基因表达分析,最好富集Poly(A)+,除非打算获取有关lncRNA的信息,在这种情况下,建议去除核糖体RNA。
RNA质量检查:在开始cDNA文库制备之前,必须检查提取的RNA的完整性。传统上,通过目测经凝胶电泳的核糖体RNA条带来评估RNA的完整性。但是这种方法既费时又不精确。安捷伦(Agilent)的生物分析仪系统将快速评估RNA完整性并计算RNA完整性数(RIN),这有助于RNA质量的解释和再现性。RIN本质上提供了一种方法,通过该方法可以将来自不同样品的RNA质量以标准化的方式相互比较。
- 片段化及大小选择(Fragmentation and size selection)
第二步将剩余的RNA分子片段化。可以通过化学,酶促(例如,RNA酶)或物理过程(例如,化学/机械剪切)来完成。然后对这些片段进行大小选择,仅保留那些在Illumina测序仪可以处理的最佳大小范围内(即150至300 bp之间)的片段。
片段大小质量检查:在选择/排除片段大小后,应该评估片段大小分布,以确保它是单峰的和良好定义的。
- 将RNA逆转录为双链cDNA(Reverse transcribe RNA into double-strand cDNA)
可以通过创建链库(stranded libraries)来保留有关片段起源于哪条链的信息。最常用的方法是在合成第二条cDNA链时掺入脱氧-UTP(有关详细信息,请参阅Levin et al.(2010))。一旦产生双链cDNA片段,就将接头(adapters)连接到末端。 (可以在此处而不是在RNA水平上进行大小选择。) - PCR扩增(PCR amplification)
如果起始材料的量少和/或为使cDNA分子的数量增加到足以进行测序的量,则通常PCR以扩增文库。运行尽可能少的扩增循环,以避免PCR伪像。
图片来源:Nat Immunol. 2012 Sep;13(9):802-7.
2. 测序(Illumina)
cDNA文库测序将会产生读段(reads)。读段对应于文库中每个cDNA片段末端的核苷酸序列。可以选择对cDNA片段的单端(single-end reads)或片段的双端(paired-end reads)进行测序。
SE - Single end dataset => Only Read1