【算法详解】可以用于跨技术、跨模态的异质切片对齐的方法SLAT

最新推荐文章于 2025-03-05 11:23:50 发布

yaoyao255

最新推荐文章于 2025-03-05 11:23:50 发布

阅读量1k

点赞数 10

分类专栏：算法详解文章标签：人工智能论文阅读算法论文笔记机器学习

本文链接：https://blog.csdn.net/weixin_60734652/article/details/134395711

版权

算法详解专栏收录该内容

17 篇文章

订阅专栏

0 参考文献

SLAT原论文：Spatial-linked alignment tool (SLAT) for aligning heterogenous slices

1 方法特点

空间组学技术的进步揭示了生物组织器官以及生物体本身结构的空间排布。尽管由于受到技术显示，空间组学技术相比单细胞组学技术降低了一些分辨率（空间组学每一个检测的spot包含多个细胞，相当于检测了这些细胞的综合值）。但是空间组学技术允许人们在关注细胞分子参数的同时，获得空间位置信息，对于帮助人们理解生命活动的调控原理和微环境对细胞的影响等方面具有更大的作用。

现在各种组学（转录组、表观组、蛋白质组等）的技术都已经实现了对于切片的分子参数进行原位测量。因此寻找一种方法合理地将多个切片对齐是至关重要的，这可以增强下游任务的表现。比如将处于不同发育阶段的胚胎切片进行对齐，可以帮助确定在发育过程中，关键的时空变化以及其分子基础。

然而目前大多数空间组学数据对齐方法，都是针对同质切片进行对齐，比如对同时期测量的同器官、同组学的多个相邻切片进行对齐，重建组织的3D结构。无法用于对齐异质切片，因为异质切片，通常会具有明显的非刚性形变、不同的空间分辨率以及复杂的批次效应。

这篇文章提出一种可以用于异质切片对齐的方法SLAT（Spatially-Linked Alignment Tool），当然，这种方法也可以进行同质切片对齐。

值得一提的是，这是首个发表的异质切片对齐方法。

2 算法细节

2.1 数据建模

空间位置信息和组学特征的联合建模是每一个空间切片对齐算法都需要进行的步骤。

在SLAT中，将数据集表示为 $D=\{(g^{(i)}, s^{(i)}),i=1,2,...,N\}$ ，其中N是spot（或cell）的数量， $g^{(i)}\in \mathbb{R}^G$ 代表第i个spot原始的组学特征的向量（G为组学特征的数量，例如在空间转录组数据中就是所测量的基因的种类数量）， $s^{(i)}\in \mathbb{R}^2$ 代表第i个spot的空间位置坐标。

将每个spot的特征和坐标组成矩阵为 $G\in \mathbb{R}^{N\times G},S\in \mathbb{R}^{N\times 2}$ 。对于要进行对齐的两组数据，使用 $G_1,G_2$ 和 $S_1,S_2$ 表示。

为了能够校正不同样本之间的批次效应，在数据预处理阶段使用基于SVD分解的跨数据集矩阵分解策略。

将进行了标准化后的数据表示为 $\widetilde{G_1}\in \mathbb{R}^{N_1\times G},\widetilde{G_2}\in \mathbb{R}^{N_2\times G}$ 。随后进行如下SVD分解

根据分解得到的矩阵，可以通过如下形式得到经过批次校正的量数据集的嵌入结果（embeddings）

其中 $U_{1:M}\in \mathbb{R}^{N_1\times M}, V_{1:M}\in \mathbb{R}^{N_2\times M}, \Sigma _{1:M}\in \mathbb{R}^{M\times M}$ ，是对应最大的M个特征值的矩阵。

对数据集 $D$ 中的数据构建邻接图 $G=(V,E,X)$ ，其中 $v_i\in V$ 对应于根据上述分解获得的批次校正后的表示 $x^{(i)}\in \mathbb{R}^M$ ，边连接节点与其k近邻。这个邻接图可以使用二值矩阵A表示，1对应节点之间有边连接，0则反之。

值得注意的是，在对齐来自不同技术的异质切片时，由于可能不同技术具有不同的空间分辨率，所以可以通过调整k的大小，来针对每个切片构建邻接图。

SLAT将两个数据集 $D_1=\{(x^{(i)}, s^{(i)}),i=1,2,...,N_1\},D_2=\{(x^{(i)}, s^{(i)}),i=1,2,...,N_2\}$ 根据他们对应的两个空间邻接图，将该问题建模为最小成本二分匹配问题。

其中 $z^{(i)}_1,z_2^{(j)}\in \mathbb{R}^P$ 是分别来自两张图的节点 $v_i,v_j$ 的嵌入表示，M是一组固定大小的匹配关系。类似地，使用 $Z_1\in \mathbb{R}^{N_1\times P},Z_2\in \mathbb{R}^{N_2\times P}$ 来表示两个数据集的嵌入表示的集合。

上述问题已经被证明等价于最小化图匹配对应的节点表示的Wasserstein距离。

2.2 整体表征的构建

准确的对齐应该使得对齐的spot具有相同的类型和空间位置情况。空间位置情况包括各种规模的空间情况，例如从微环境到其整体组织中的所在位置。

SLAT首先使用LGCN（lighweight graph-convolutional network，轻量级图卷积网络）来生成整体的细胞表示。

其中 $\widehat{A}=\widetilde{D}^{-1/2}\widetilde{A}\widetilde{D}^{-1/2},\widetilde{A}=A+I$ ， $\widetilde{D}$ 是 $\widetilde{A}$ 的度矩阵（degree matrix，是一个对角矩阵，其中每个节点的度数（连接边的数量）是对角线上的元素），L是最大步数。