目录
0 参考文献
SCALE原论文:SCALE method for single-cell ATAC-seq analysis via latent feature extraction
1 研究背景
染色质的可及区域往往包含用于转录因子结合和基因调控的重要基因组元件,ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing,使用测序技术的转座酶染色质可及性实验)是一种可以探测全基因组的开放染色质位点的方法。
scATAC-seq(single-cell ATAC-sequencing)则提供单细胞染色质可及性信息,可以用来揭示调节细胞间异质性的机制。
通常情况下,由于技术限制,相对于成千上万个可能的开放位置,每个细胞只能获得几千个不同的染色质开放位点信息,导致细胞的许多真正开放的染色质位点缺乏测序数据,进而使得scATAC-seq数据的分析同时面临数据缺失和高维问题。
很多用于处理具有稀疏性和高维性的计算方法已经被开发出来,并广泛地应用于处理与scATAC-seq数据类似的scRNA-seq数据。然而scATAC-seq数据往往具有类似二进制的数据形式(仅包含0或1,0代表不开放,1代表开放),并且相较于scRNA-seq数据更加稀疏,因此直接使用用于处理scRNA-seq数据的方法来处理scATAC-seq数据并不合适。
这篇文章提出了一种结合VAE(Variational Autoencoder,变分自编码器)和GMM(Gaussian Mixture Model,高斯混合模型)的方法SCALE(Single-Cell ATAC-seq analysis viaLatent feature Extraction)以获得scATAC-seq数据的低维表示。SCALE在可视化、聚类、降噪和填补缺失值方面都展现出了优于其他类似方法的能力。
2 算法解析
2.1 算法概述
SCALE结合VAE和GMM来处理scATAC-seq数据X,将数据X建模为一个联合分布。其中c是提前定义的K个聚类中的一个,对应于GMM的一个分量;
是隐变量,
和
通过编码器网络使用X学习得到,
从分布
中选取。
由于z是由c决定的,所以有,其中
是K个预定义聚类的离散分布,
服从混合高斯分布,每个分量对应于一个类别c,具有均值
和方差
,
是由解码器网络建模的多变量伯努利分布。
如下图所示,SCALE方法将每个cell对应的数据,先通过编码器映射到低维隐空间对应的表示
,再通过解码器重建原染色质开放性数据。低维表示可以被可视化,并用于聚类。
2.2 概率模型
前面已经大致说明了SCALE概率模型的定义,这里进行进一步说明。
SCALE将数据X建模为一个联合分布,其中c是分类变量,服从离散分布
。
根据2.1的定义可以将这些概率写为如下形式
SCALE的训练目标是最大化下面这个对数似然函数,这等价与最大化ELBO
由于有,因此ELBO可以写成如下形式
ELBO包含两项,前项为重构项,用于令填补后(重建后)的数据与原始输入数据相似,使得模型能够尽可能准确地恢复或生成缺失的数据;后项为正则化项,是一个KL散度,它用于将隐变量Z规范到一个GMM的流形上,正则化项有助于模型学习到的隐变量Z更加规则化、可解释性更强。
和
分别是编码器和解码器,由两个神经网络来建模。编码器接收输入数据X并学习产生隐空间表示Z和c的分布。解码器则从Z中生成数据X的分布。
ps:这篇文章方法比较基础,整体论文也比较短,确实没有太多可记录的