哈佛大学——差异表达分析（一）RNAseq基础知识

本文链接：https://blog.csdn.net/weixin_46585008/article/details/109319014

这篇博客介绍了RNA-seq分析的基础知识，从RNA提取到差异表达分析的完整工作流程。主要内容包括使用Salmon进行定量表达、RNA-seq工作流程的各个步骤（RNA提取、测序、质量控制等）、实验设计考虑（重复、混杂、批次效应）以及质量控制工具FastQC和MultiQC的应用。通过这个流程，读者将理解如何从原始数据到获得差异基因列表并进行后续的生物信息学分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述——使用Salmon计算

该课程的学习目标

使用主成分分析（PCA）和层次聚类对计数数据进行质量控制
使用DESeq2获得差异基因的列表
可视化差异表达基因的表达模式
使用基于R的工具对基因列表进行功能分析

需要下载的包

使用install.packages("insert_package_name_in_quotations")，从CRAN下载包：

BiocManager
devtools
tidyverse
RColorBrewer
pheatmap
ggrepel
cowplot

使用

library(BiocManager)
install("insert_first_package_name_in_quotations")

从Bioconductor下载包：

DESeq2
clusterProfiler
DOSE
org.Hs.eg.db
pathview
DEGreport
tximport
AnnotationHub
ensembldb

工作流程（原始数据计数）

学习目标

理解从RNA提取到评估基因表达水平这一整个RNA-seq工作流程的不同步骤。

RNA-seq工作流程

为了进行差异基因表达（DGE）分析，我们需要一个代表基因表达水平的计数矩阵(count matrix)。在统计分析前，更重要的是要理解计数矩阵是如何产生的。
接下来简单介绍bulk RNAseq的RNA-processing pipeline，以及我们从原始测序读段(reads)到基因表达计数矩阵所需的不同步骤。
在这里插入图片描述

1. RNA提取和文库准备

在对RNA进行测序之前，必须先将其提取并从细胞环境中分离出来，然后制成cDNA文库。下图概述了其中涉及的许多步骤，同时还进行了各种质量检查，以确保我们拥有高质量RNA能继续实验。我们在下面简要介绍其中一些步骤。

RNA富集(Enriching for RNA)
用DNA酶处理样品以去除污染的DNA序列后，样品将进行mRNA的选择（polyA选择）或rRNA的去除。
通常，rRNA是细胞中占比最多的RNA，而mRNA仅占总RNA的一小部分，人类约2％。因此，如果要研究蛋白质编码基因，则需要富集mRNA或耗尽rRNA。对于差异基因表达分析，最好富集Poly(A)+，除非打算获取有关lncRNA的信息，在这种情况下，建议去除核糖体RNA。

RNA质量检查：在开始cDNA文库制备之前，必须检查提取的RNA的完整性。传统上，通过目测经凝胶电泳的核糖体RNA条带来评估RNA的完整性。但是这种方法既费时又不精确。安捷伦(Agilent)的生物分析仪系统将快速评估RNA完整性并计算RNA完整性数（RIN），这有助于RNA质量的解释和再现性。RIN本质上提供了一种方法，通过该方法可以将来自不同样品的RNA质量以标准化的方式相互比较。

片段化及大小选择(Fragmentation and size selection)
第二步将剩余的RNA分子片段化。可以通过化学，酶促（例如，RNA酶）或物理过程（例如，化学/机械剪切）来完成。然后对这些片段进行大小选择，仅保留那些在Illumina测序仪可以处理的最佳大小范围内（即150至300 bp之间）的片段。

片段大小质量检查:在选择/排除片段大小后，应该评估片段大小分布，以确保它是单峰的和良好定义的。

将RNA逆转录为双链cDNA(Reverse transcribe RNA into double-strand cDNA)
可以通过创建链库(stranded libraries)来保留有关片段起源于哪条链的信息。最常用的方法是在合成第二条cDNA链时掺入脱氧-UTP（有关详细信息，请参阅Levin et al.（2010））。一旦产生双链cDNA片段，就将接头（adapters）连接到末端。（可以在此处而不是在RNA水平上进行大小选择。）
PCR扩增(PCR amplification)
如果起始材料的量少和/或为使cDNA分子的数量增加到足以进行测序的量，则通常PCR以扩增文库。运行尽可能少的扩增循环，以避免PCR伪像。

图片来源：Nat Immunol. 2012 Sep;13(9):802-7.

2. 测序（Illumina）

cDNA文库测序将会产生读段（reads）。读段对应于文库中每个cDNA片段末端的核苷酸序列。可以选择对cDNA片段的单端（single-end reads）或片段的双端（paired-end reads）进行测序。
在这里插入图片描述
SE - Single end dataset => Only Read1