Aerts, S. How regulatory sequences learn cell representations. Nat Methods 19, 1041–1043 (2022). https://doi.org/10.1038/s4159Aerts, S. How regulatory sequences learn cell representations. Nat Methods 19, 1041–1043 (2022). https://doi.org/10.1038/s41592-022-01570-82-022-01570-8
查看之前对scBasset文章的总结:
背景
1. CNN已经成功地被用来 对调控DNA序列进行训练 来预测TF binding、染色质可及、增强子活性、基因表达。为了训练这种网络,第一层的卷积滤波器会应用于整个输入序列,从而激活与最终预测相关的序列motifs。滤波器的大小通常是为了反映 TF motif的宽度,这样许多学习到的特征就代表了 TF motif。然后 额外的卷积层、循环层、transformer层 为学习TF motifs 如何相互组织 提供了一种方法。然后传入密集层中,利用学习到的表示 进行分类/回归。
与传统的序列分析方法,PWM或de novo的motif发现 相比,结合了网络可解释性方法的CNNs 提供了一种有前景的方式 来克服 在 TF binding 预测上的 高假阳性率(futility theorem)。
CNN可以被训练来识别哪些DNA序列模式与特定的细胞类型或状态相关联,从而揭示基因表达的调控机制。细胞类型特异 的 调控元件。
然而,在使用 scATAC-seq 数据时,这种方法依赖于按细胞类型或细胞状态对细胞进行高质量的聚类,而鉴于这些数据的高噪声和稀疏性,这可能是一项挑战。 聚类的质量直接影响CNN训练的效果,因为训练目标是在所有特定细胞类型的可接近区域上识别基因调控代码。(现有从DNA序列预测调控元件的方法都需要对scATAC的细胞进行聚类,单个细胞的数据可能不足以提供足够的信息来准确识别这些复杂的调控模式。通过将细胞按类型或状态聚类,可以将来自同一类细胞的数据合并起来,增加信号的强度,降低噪音的影响,从而使模型能够更准确地学习和识别特定细胞类型或状态的基因调控特征。)
而scBasset 利用 基于序列的 CNN 学习高置信度的单细胞表示,解决了这一问题,既可以进行高质量的细胞聚类,又可以揭示细胞类型特异的 调控特征。
2. scATAC的数据有很高的drop-out rates,一个单细胞只有10%的可及性区域会被捕获。一些计算方法,通过降维,只保留相关信息,以便进行可视化和聚类,如LSI、LDA、VAE(E-bottleneck-D)。它们都能推导出潜在变量LV,从而对细胞进行聚类。这些clusters可被用来识别每个cluster的差异可及性区域,然后用作基于CNN学习的训练数据。
scBasset that aims to solve the scATAC-seq cell clustering problem by jointly learning the sequence information using CNNs。神经网络并不只依赖于稀疏的 scATAC-seq 数据,而是将 DNA 序列(1,344 bp,包含 ATAC-seq 峰值)作为输入,并预测该区域在所有细胞中的可及性向量。当应用于所有peaks时,CNN 会学习如何仅根据peak sequence重新生成 scATAC-seq peak-by-cell (binary) accessibility matrix。
outperforms existing methods in terms of cell clustering。
scBasset 结合了 使用CNN的sequence-based learning 和 scATAC数据的representation learning,将序列编码为低维32 LV表示,然后解码为所有单个细胞的scATAC向量。下游分析与上图中的sequence-based CNNs类似。
3. 利用序列特征驱动 scATAC-seq 数据分析的方法以前也曾使用过,尤其是 chromVar 方法。
chromVar 先验地将 scATAC-seq reads聚合到共享 TF motif 的序列集上,从而将 scATAC-seq 矩阵的维度降低到 [motif数目×细胞数目],然后对细胞进行聚类。通过 scBasset,CNN 可以学习这些 motif,并与基于 scATAC-seq 的细胞表示 共同优化。此外,当有 scRNA-seq 数据时,这些motif 可与 TF 活性和表达相关联。
scBasset 的in silico mutagenesis 揭示了细胞类型特异性染色质可及性背后的关键 TF 结合位点。