【算法详解】单细胞染色质开放性数据降维方法SCALE,单细胞表观组数据处理方法(VAE+GMM)

目录

0 参考文献

1 研究背景

2 算法解析

2.1 算法概述

2.2 概率模型


0 参考文献

SCALE原论文:SCALE method for single-cell ATAC-seq analysis via latent feature extraction

1 研究背景

染色质的可及区域往往包含用于转录因子结合和基因调控的重要基因组元件,ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing,使用测序技术的转座酶染色质可及性实验)是一种可以探测全基因组的开放染色质位点的方法。

scATAC-seq(single-cell ATAC-sequencing)则提供单细胞染色质可及性信息,可以用来揭示调节细胞间异质性的机制。

通常情况下,由于技术限制,相对于成千上万个可能的开放位置,每个细胞只能获得几千个不同的染色质开放位点信息,导致细胞的许多真正开放的染色质位点缺乏测序数据,进而使得scATAC-seq数据的分析同时面临数据缺失和高维问题

很多用于处理具有稀疏性和高维性的计算方法已经被开发出来,并广泛地应用于处理与scATAC-seq数据类似的scRNA-seq数据。然而scATAC-seq数据往往具有类似二进制的数据形式(仅包含0或1,0代表不开放,1代表开放),并且相较于scRNA-seq数据更加稀疏,因此直接使用用于处理scRNA-seq数据的方法来处理scATAC-seq数据并不合适

这篇文章提出了一种结合VAE(Variational Autoencoder,变分自编码器)和GMM(Gaussian Mixture Model,高斯混合模型)的方法SCALE(Single-Cell ATAC-seq analysis viaLatent feature Extraction)以获得scATAC-seq数据的低维表示。SCALE在可视化、聚类、降噪和填补缺失值方面都展现出了优于其他类似方法的能力。

2 算法解析

2.1 算法概述

SCALE结合VAE和GMM来处理scATAC-seq数据X,将数据X建模为一个联合分布p(X,Z,c)。其中c是提前定义的K个聚类中的一个,对应于GMM的一个分量;Z=\mu_Z+\sigma_Z\times \epsilon是隐变量,\mu_Z\sigma_Z通过编码器网络使用X学习得到,\epsilon从分布\mathbb{N}(0,I)中选取。

由于z是由c决定的,所以有p(X,Z,c)=p(X|Z)p(Z|c)p(c),其中p(c)是K个预定义聚类的离散分布,p(Z|c)服从混合高斯分布,每个分量对应于一个类别c,具有均值\mu_c和方差\sigma_cp(X|Z)是由解码器网络建模的多变量伯努利分布。

如下图所示,SCALE方法将每个cell对应的数据x^i,先通过编码器映射到低维隐空间对应的表示z^i,再通过解码器重建原染色质开放性数据。低维表示可以被可视化,并用于聚类。

2.2 概率模型

前面已经大致说明了SCALE概率模型的定义,这里进行进一步说明。

SCALE将数据X建模为一个联合分布p(X,Z,c)=p(X|Z)p(Z|c)p(c),其中c是分类变量,服从离散分布Discrete(c|\pi),p(c=j)=\pi_j,\pi \in \mathbb{R}^K

根据2.1的定义可以将这些概率写为如下形式

SCALE的训练目标是最大化下面这个对数似然函数,这等价与最大化ELBO

由于有p(X,Z,c)=p(X|Z)p(Z|c)p(c),因此ELBO可以写成如下形式

ELBO包含两项,前项为重构项,用于令填补后(重建后)的数据与原始输入数据相似,使得模型能够尽可能准确地恢复或生成缺失的数据;后项为正则化项,是一个KL散度,它用于将隐变量Z规范到一个GMM的流形上,正则化项有助于模型学习到的隐变量Z更加规则化、可解释性更强。

q(Z,c|X)p(X|Z)分别是编码器和解码器,由两个神经网络来建模。编码器接收输入数据X并学习产生隐空间表示Z和c的分布。解码器则从Z中生成数据X的分布。

ps:这篇文章方法比较基础,整体论文也比较短,确实没有太多可记录的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值