10X空间转录组空间高变基因联合组织区域识别之SpatialDE2

最新推荐文章于 2025-05-20 16:07:38 发布

追风少年ii

最新推荐文章于 2025-05-20 16:07:38 发布

阅读量1.2k

点赞数 10

文章标签：空间转录组高变基因数据分析

本文链接：https://blog.csdn.net/weixin_53637133/article/details/138459135

版权

SpatialDE2是SpatialDE的升级版，专为处理空间转录组学数据提供了一个集成的解决方案。它在组织区域分割和空间高变基因检测方面有显著提升，尤其在复杂组织和大规模数据集上。SpatialDE2引入了贝叶斯隐马尔可夫随机场模型，考虑空间平滑度，并实现了GPU加速。在小鼠大脑和人类子宫内膜数据集上的应用表明，SpatialDE2在识别组织区域和空间可变基因方面优于Leiden聚类，为理解和解析复杂组织结构提供了新途径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hello，大家好，又到周五了，今天给大家带来一个新的分析内容，空间高变基因联合算法推断区域识别的方法，SpatialDE2，文章在SpatialDE2: Fast and localized variance component analysis of spatial transcriptomics,看到这个，大家首先联想到的是软件SpatialDE，其实这本身就是SpatialDE的升级版，关于SpatialDE大家可以参考我的文章10X空间转录组-----空间高变基因检测之SpatialDE，好了，我们来看看SpatialDE2有什么改进之处。

放一张效果图，划分区域相当不错，优于Leiden

Abstract

空间转录组学现在是一项成熟的技术，可以在复杂组织的组织学背景下分析基因表达的变化。典型分析工作流程从识别具有相似表达谱的组织区域开始，然后检测高度可变或空间可变的基因。空间转录组数据集规模和复杂性的快速增加要求以一致和集成的方式进行这些分析步骤，当前很多方法无法满足这一要求。为了解决这个问题，作者开发了SpatialDE2，它将组织区域的映射和空间高变基因检测统一为集成软件框架，同时推进这两个步骤的当前算法。该模型在贝叶斯框架中制定，考虑了泊松计数噪声，同时与以前的方法相比提供了卓越的计算速度。使用模拟数据验证了 SpatialDE2，并证明了其在实际中的运用价值。

Introduction

空间转录组学技术目前获得了极大的关注，因为其能够探索细胞局部环境中的细胞身份和功能。在快速技术发展的推动下，空间转录组现在允许并行研究成百上千个基因。基于多重成像的技术，如 SeqFISH+ 或 MERFISH，允许同时检测数百个基因参数，提供亚细胞分辨率。基于 RNA 测序 (RNAseq) 的方法使用空间条形码引物，并允许对少数细胞进行分辨率并接近单细胞分辨率。这些方法包括空间转录组学、HDST 和 Slide-seq，分辨率为少数细胞，接近单细胞分辨率。特别是，空间转录组学的改进版本 10x Visium 由于其商业可用性和易用性而在社区中得到广泛采用（大家用到的空间转录组大部分都是10X公司的）。

虽然最初的研究集中在相对均匀的小组织切片中的概念验证应用，但这些技术越来越多地应用于具有不同结构和区域的复杂组织或器官，包括人脑、子宫内膜和肿瘤微环境。这些数据允许解决一系列不同的问题，空间组学分析工作流程的典型起点是识别空间可变基因。此步骤产生与下游分析最相关的基因，例如组织中局部生态位的定义支持细胞分化和功能（这也是我特别强调大家重视空间高变基因的原因），但关于空间变异性的知识本身通常可以提供生物学见解，例如变成癌症。然而，现有的空间可变基因检测方法通常考虑空间转录组学数据集中的整个视野。随着空间转录组学的视野不断扩大，并且这些方法被应用于由不同细胞类型组成的区域组成的日益复杂的组织，单纯地应用空间可变基因检测不再能产生相关的见解，因为已识别的空间可变基因组主要是包含并非固有空间可变的细胞类型标记。因此，空间方差分析需要结合合适的计算方法来识别组织区域（说的很有道理）。

空间可变基因检测和组织区域识别都在该领域受到关注。例如，SpatialDE1是最早检测空间可变基因的计算解决方案之一，最近已通过Leiden 模型对其进行了改进。两种模型都基于非参数高斯过程 (GP) 回归，SPARK 还提供基于计数的可能性和更强大的统计测试。同样基于 GP 回归的 SVCA 和基于距离加权非参数回归的 scHOT 扩展了空间变量基因检测的原理，通过考虑相邻细胞或voxels之间的相互作用，提供精度更高的空间基因表达变异分解。然而，所有这些方法的共同点是它们不能扩展到大型数据集，部分原因是受 CPU 限制的实现无法利用现代高度并行化的 GPU 架构，部分原因是算法效率低下。同样，存在一系列聚类方法，但它们不太适合识别空间基因表达数据中的组织区域。 Scanpy 和 Seurat 是两个广泛使用的 scRNA-seq 分析框架，推荐使用 Leiden 聚类从空间组学中识别组织区域，这是一种不知道空间关系的算法。 Giotto 为此任务提出了一种基于隐马尔可夫随机场的方法，从而强加了空间平滑性约束。然而，该模型要求用户预先指定组织区域的数量，并且它采用了对计数数据来说不是最佳的高斯似然模型。最后，注意到缺乏能够结合空间变量基因选择和组织区域识别的集成软件和工作流程。

基于这方面的确实，作者开发了SpatialDE2，一个用于建模空间转录组学数据的灵活框架。 SpatialDE2 实现了两个主要模块，这两个模块共同提供了用于分析空间转录组学数据的end-to-end工作流程：组织区域分割模块和用于检测空间可变基因的模块。与以前的方法相比，组织区域分割速度快，并提供了改进的可用性。特别地，该模块能够在采用适当的基于计数的可能性的同时自动确定组织区域的数量。用于检测空间可变基因的模块通过提供技术创新和计算加速扩展了先前的方法，例如 SpatialDE 和 SVCA。文章中使用模拟数据和对两个真实世界数据集的应用来验证 SpatialDE2 的分割和空间变量基因检测模块，其中包含小鼠大脑和人类子宫内膜的 10x Visium 数据。在这些应用中，软件展示了与以前的方法相比，两个模块的速度和鲁棒性都有所提高。 SpatialDE2 为评估组织区域内的空间表达异质性提供了一个集成的解决方案，从而为处理复杂组织和大样本提供了原则性的策略。

SpatialDE2算法原理

SpatialDE2 通过实现两个无缝集成的分析模块：组织区域分割模块和空间可变基因检测模块，实现了用于表征子区域空间异质性的end-to-end工作流程（下图）。

注：Top: SpatialDE2 accepts input spatial transcriptome profiles from a tissue sample, either in the form of a raw gene count matrix, or using cell type counts as provided from a computational deconvolution step (e.g. cell2location). Bottom: input data processing workflow.

这两个模块都直接对原始 mRNA 计数进行建模，这些计数是从多路分解的空间转录组学工作流程中获得的，或作为输入的成像技术。可选地，SpatialDE2 还可以对从附加解卷积步骤获得的细胞计数估计值进行操作（这里用到的是cell2location）。

简而言之，空间组织区域分割模块基于贝叶斯隐马尔可夫随机场，将组织分割成不同的组织学区域，同时明确考虑相邻位置之间的空间平滑度（下图）

注：SpatialDE2 segments the input tissue into connected and transcriptionally similar regions. Top: Schematic output of the segmentation with colours denoting identified tissue regions. Bottom: implementation of the spatial segmentation based on a Poisson Hidden Markov Random field to encode the assumption of spatial smoothness. Nodes correspond to locations with colour denoting the region label. The number of regions is determined by the model.

与当前最广泛使用的基于Leiden聚类的算法相比，SpatialDE2方法的主要优势是双重的。首先，与以前的方法不同，SpatialDE2 在分割步骤中明确说明了空间信息。其次，SpatialDE2 为使用原则性贝叶斯方法实现的组织分割提供了一个连贯模型，该模型需要一个用户定义的参数，该参数对空间平滑度的先验假设进行编码。相比之下， Leiden 聚类方法的结果会受到手动定义处理步骤相互作用的非直观影响，每个处理步骤都由多个参数决定。 Leiden聚类工作流包括原始数据归一化、降维、k-最近邻搜索和 Leiden 聚类算法本身的应用。

The spatially variable gene detection module models variance components of individual genes within identified regions using an appropriate count-based likelihood.。虽然 SpatialDE2 建立在高斯过程回归的基础上，也被 SpatialDE、SVCA 和 SPARK 等方法使用，但该模型通过提供新颖的特征、改进的可扩展性、支持多个方差分量和 GPU 计算来概括这些方法。核心部分，该模型将表达变异分解为不同的结构化成分和一个模拟随机变异性的噪声项(下图，我还是特别推荐有能力的童鞋多多研究数学算法，不然最根本的原理完全不明白)。

注：SpatialDE2 models spatial variance components of individual genes within tissue regions. Top: Schematic for the identification of spatial variance components of individual genes in specific tissue regions. Bottom: SpatialDE2 models expression variation within tissue regions by partitioning gene expression variation into one or multiple functional components (U1,..,Un). Each component is characterized by a covariance matrix that is parametrized by spatial or non-spatial covariates. The special case of spatially variable gene selection corresponds to a functional component parametrized by distance between locations.

根据一个或多个协方差矩阵的设计，可以将不同的测试形式化，以量化空间可变基因，或识别受细胞-细胞相互作用调节的基因。

最后，注意到 SpatialDE2 提供了下游分析工具来帮助解释。这包括用于识别空间共变的基因。 AEH 将特定基因的表达建模为来自定义数量的平滑空间模式之一，并尝试使用贝叶斯框架估计模式和基因对模式的分配。

注：(D) Run time of SpatialDE2’s tissue region segmentation module and a Leiden clustering workflow for semi-synthetic dataset of increasing size and when using alternative compute environments. Clustering/segmentation was based on 2,000 genes. Leiden denotes the scanpy workflow. Only SpatialDE2 supports GPU computations. (E) Run time of SpatialDE2’s spatially variable gene selection module versus alternative methods. Considered is a dataset consisting of 200 genes for increasing numbers of locations and alternative computing environments. Only SpatialDE2 supports GPU computations.

Model validation using simulated data

首先，在无空间变量基因表达的零假设下使用模拟数据来确认空间变量基因检测模块的统计校准。简而言之，与SpatialDE1和SPARK 类似，SpatialDE2 increases the sensitivity of its spatially variable gene detection by testing multiple kernel matrices for each gene. SpatialDE2 implements two strategies to estimate statistical significance: Each kernel matrix is tested separately and the p-values are combined using the Cauchy combination，or all kernel matrices are tested simultaneously using an omnibus test。后一种选择更快，因为只进行了一次测试。分析确认这两种策略都产生了校准结果。

接下来，模拟了真实空间可变基因，调整了来自 10x Visium 小鼠大脑数据集的经验参数。我们评估了 SpatialDE2、SpatialDE和SPARK 的灵敏度（统计性能）以检测真正的空间可变基因。SpatialDE的灵敏度最低，而 SpatialDE2 和SPARK 的结果相当。默认情况下，SPARK 通过执行内核矩阵的特征分解并将负特征值设置为零来强制内核的正定性。由于其默认的周期内核不是正定的，这会导致内核定义不明确且无法解释。因此，还在基准测试中包含了没有特征值裁剪的SPARK ，分析得到一致的结果。

Tissue region segmentation recovers known histological features along a continuous resolution gradient

接下来，测试来自小鼠大脑的 10x Visium 数据，以评估 SpatialDE2 和组织分割的替代方法。小鼠大脑非常适合此类基准测试目的，因为它具有明确定义和注释良好的不同区域。使用空间平滑度的默认设置，SpatialDE2 正确解析了主要的大脑区域（下图），特别是将海马锥体/颗粒细胞与周围的海马结构（区域 0）分开并识别了侧脑室（区域 3）。为了进行比较，还考虑了应用于相同输入数据的Leiden聚类工作流程（方法）。从Leiden聚类获得的分割解决方案未能解决一些预期的大脑区域，特别是海马锥体/颗粒细胞和侧脑室都没有被识别。

注：(A) Clustering of mouse brain Visium data with SpatialDE2 using default parameters (left), SpatialDE2 with adjusted parameters and clustering results obtained using the Leiden workflow (right).Identified tissue regions are annotated in colour. To avoid clutter, only selected regions that are referred to in the main text are labeled in the legend (out of 18 in total) . (B) Corresponding reference annotation of the mouse brain regions obtained from the Allen Brain Atlas