SAVER 学习总结

最新推荐文章于 2024-06-10 00:35:53 发布

拜托啦！狮子

最新推荐文章于 2024-06-10 00:35:53 发布

阅读量132

点赞数 1

文章标签：学习人工智能笔记

本文链接：https://blog.csdn.net/weixin_44203980/article/details/131344127

版权

SAVER: gene expression recovery for single-cell RNA sequencing. Nat Methods. 2018 Jul;15(7):539-542. doi: 10.1038/s41592-018-0033-z

一. 背景

本文使用的Drop-seq[1]是一种广泛应用的单细胞RNA测序技术，基于液滴微流控，简单来说就是将细胞悬浮液与带有barcode的beads泵至微流控芯片中，两者汇聚后被油滴包裹，形成单分散的微滴droplet，随后将细胞裂解，释放mRNA并与beads上的barcode杂交，后续逆转录，以及PCR扩增，然后就可以进行测序和分析。单细胞水平的RNA测序相比bulk测序提供了更精细的分辨率揭示不同细胞之间的差异，探索细胞群体内的细胞异质性。

图1 Drop-seq测序流程[1]

但由于scRNA-seq技术中的低RNA输入量以及PCR扩增等步骤，导致数据存在较高的噪音和技术变异，在有限的测序深度下，scRNA-seq数据是高度稀疏，但又高维度的，特别是本身表达量低的基因，可能在大部分细胞中都无法检测到，本身表达量高的基因可能又受限于测序深度上限，导致读数饱和。

基于此，scRNA-seq中，reads数的分布通常会被建模为负二项分布或泊松分布的变体，因为方差与均值之间并非简单的线性关系，通常来说表达量更高的基因，方差更收缩且大于均值，而表达量更低的基因，由于受噪音影响更大，方差常常离散度更高-方差异质性。[2]

图2 RNA-seq数据的reads分布特点[2]

二. 方法和结果

1. SAVER的主要思想：

将scRNA-seq数据建模为泊松-伽马分布，假设每个基因的计数数据服从泊松分布，考虑到数据的离散性，引入伽马分布作为泊松分布的参数的先验分布，但作者并没有直接指定Gamma先验，而是用部分高质量基因的表达作为真实信号，从数据中学习参数的先验分布，并估计先验参数（gamma分布重新参数化后的μ和v）。一旦先验参数被估计出来，SAVER就可以得到所有基因表达的预测值，对预测值和观察值进行加权平均后，就可以输出真实表达的后验分布，最后不仅用后验分布的平均值作为SAVER恢复的表达值，且量化了估计的不确定性。

2. 模型假设

Ygc是细胞c中基因g的UMI数，对Ygc用gamma-poisson建模。Sc是细胞特异的归一化常数，λgc是真实的表达量。α和β是gamma分布中的形状参数和尺度参数。

Gamma分布表达式如下：

μ和v分别表示Gamma分布的随机变量X~Gamma(α, β)的均值和方差。用μ和v对gamma分布重新参数化：

接下来的目标就是估计先验均值μ和先验方差v。

3. 参数估计

(1) 先验均值μ的估计

均值估计：μgc表示对基因g的预测值，g’表示来自相同细胞中的其它基因。将g'的log归一化count数作为泊松广义线性回归模型的predictors，来预测基因g的表达值。

在Lasso回归中，惩罚项λ被添加到似然函数中控制predictors的数量，一个较大的λ会使得模型有大量的零值系数，也就是只有少数基因作为predictors，对g基因的表达（μgc）有贡献。用选定的高表达基因，利用glmnet回归，选择五折交叉验证中误差最小的惩罚项λ对应的模型，利用该模型预测每个基因g的先验表达均值μ^gc.

图3 五折交叉验证的损失

(2) 先验方差v的估计

通过假设一个由离散参数ϕg表示的细胞间的恒定噪声模型来估计先验方差。该模型根据均值-方差关系的不同假设，有以下三种：分别表示方差为常数，方差和均值呈线性关系，以及方差和均值呈二次关系。

为了保证在给定µgc和vgc情况下，观察表达量Ygc出现的概率最大，分别求上述三种噪声模型的密度函数，然后最大化似然函数log值，找到最大值对应的v^gc。

4. 表达量的预测

得到μ^gc，v^gc和对应的噪声模型Φg，对gamma分布重新参数化，后验分布变为：

然后计算该分布的平均值作为SAVER对该基因表达量的估计值：

Ygc是观测值，μgc是估计值（预测值）

通过β^gc项控制，该项表示均值/方差，当ϕg^小，也就是低噪音，β^gc大时，后验均值主要由权重更大的预测值μˆgc决定，反之亦然。

5. 模型评估

(1) 相对表达量

作者用FISH数据集和Drop-seq实验数据集重叠的基因来评估SAVER的效果。

首先是计算了Gini系数，一种表征数据分布和异质性的指标，来评估SAVER对表达量分布的恢复效果，图4可以看到，以FISH结果作为真实信号的情况下，相比原始Drop-seq数据，MAGIC插补数据，scImpute插补数据，SAVER插补后计算的Gini系数，与FISH计算得到的Gini系数相关性更高且均方根误差更小，即SAVER能够有效的恢复基因表达的分布特征。

图4 不同方法得到的数据之间Gini系数的相关性

除此之外，SAVER还能更好的恢复真实的基因间的相性，如图5，SAVER计算的相关性值与FISH的相关性值更一致，且减少了噪声，相比MAGIC引入大量虚假的相关性，SAVER更可靠地估计真实相关性为0的基因的关联。（图5）

图5 不同方法得到的基因间的Pearson相关性（左）及真实零关联基因的相关性（右）的比较

(2) 绝对表达量及下游分析

鉴于很难确定每个细胞中mRNA的实际数量，作者对数据集进行了下采样实验，生成基准数据集。首先选择具有高表达的基因和细胞作为reference，将这些表达水平视为真实表达。然后，以低效率方式模拟捕获和测序过程，获取观察数据集，接着运行SAVER，MAGIC和scImpute，以及其他插补的算法获得恢复数据集。

为了评估每种方法的性能，作者计算了reference和观察数据以及恢复数据集之间的细胞间和基因间Pearson相关系数。如图6，SAVER改善了基因间和细胞间的相关性。除此之外，作者还研究了SAVER对下游分析的影响，包括差异表达和细胞聚类分析。SAVER在下采样数据集中检测到了最多的差异表达基因，同时控制了FDR。

图6 下采样后表达值的恢复及对下游分析的影响

Macosko E , Basu A , Satija R , et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets[J]. Cell, 2015, 161(5):1202-1214.
Love MI, Huber W, Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 2014;15(12):550.