作者,Evil Genius
五一劳动节,还是要劳动的。
空间转录组在表征表达信息的同时,同时保留了空间信息。
这些数据对生物信息学的分析提出了新的要求——如何有效地利用空间信息?具有空间维度的数据属性需要特殊处理,与非空间数据相比,这需要一组不同的统计和推理考虑。
细胞的表型在很大程度上是由其转录组决定的,细胞是组织的基本单位。因此,从组织中提供每个细胞转录组谱的技术对于在细胞水平上理解组织组织和功能是必不可少的。单细胞RNA测序(scRNA-seq)已被证明是一种非常宝贵的方法,可以在单细胞分辨率下生成相对完整的数据。广泛的scRNA-seq技术已经开发出来,这些技术采用不同的方法进行细胞分离和RNA扩增,这反过来又影响了技术的灵敏度和细胞的数量。
自2016年首次空间转录组学实验以来,基于测序的方法得到了快速发展。例如,10x Genomics Visium使用55 μm的尺寸,而slide - seq/V2使用10um的磁珠。Stereo-seq使用DNA纳米球阵列和原位RNA捕获,提供了500纳米的改进分辨率,这意味着基于测序的空间技术可以提供亚细胞分辨率。
空间转录组学方法产生三种不同但相互关联的数据类型:(1)图像数据,(2)表达数据,(3)空间方向和位置。典型的空间转录组学分析工作流程倾向于将每个空间点视为类似单细胞水平,并相应地分析处理,而忽略不同观察结果的相对位置。但是表达数据及其空间属性在一定程度上是纠缠在一起的,如果不考虑空间信息,就不能正确地分析转录组信息,因此单独处理转录组信息会丢失重要信息。
目前利用空间转录组学的研究大致可分为三类。首先是那些使用转录组数据进行聚类的;第二种是考虑特定细胞/基因定位的方法;第三种,需要考虑基因表达差异的研究,即细胞基因的时空模型。在许多实验中,空间信息被用来划分确定感兴趣的特定区域。然而,空间信息作为空间转录组最重要的组成部分,使用坐标信息作为待分析空转数据的固有部分仍需要挖掘。
空间分析的关键术语,这些词汇早已深深嵌入到空间转录组的分析中
词汇 | 解释 |
---|---|
Aggregation problem | a variation in the results will be observed when we use alternative combinations of areal units, even on the same scale. |
Bandwidth | a parameter describing how localized a geographically weighted regression model is. |
Curse of dimensionality | the higher the number of dimensions used, the more equidistant the observations are. |
Geographically weighted regression (GWR) | a method that takes spatial heterogeneity into account because it allows for the relationships between the independent and the dependent variables to alter locally. |
Global spatial autocorrelation measures | statistics assessing the degree of spatial autocorrelation for a variable in the whole dataset. |
Hot and cold spots | aggregations in space of high (hot) or low (cold) values for a variable. |
Interesting locations | a term used instead of “statistically significant” when considering pseudo-p-values in multivariate space. |
Local indicators of multivariate spatial association (LIMSA) | measure of the extent to which neighbors in multivariate space (i.e., spots with gene expression profiles similar to each other) are also neighbors in geographical space. |
Local indicators of spatial association (LISA) | see local spatial autocorrelation measures |
Local spatial autocorrelation measures | statistics assessing the degree of spatial autocorrelation for a variable in every location compared to its neighbors. |
Modifiable aerial unit problem (MAUP) | the choice of spatial data aggregation scale will influence the statistical relationships and process understanding from analyses. |
Multiscale GWR (MGWR) | geographically weighted regression that operates in multiple scales by identifying the best bandwidth for each independent variable. |
Pseudo-p-value | a p value calculated from a normal distribution generated by computational permutations that must be treated with caution. |
Scale problem | different results will be obtained when we aggregate the same set of data on different scales. |
Spatial autocorrelation (SA) | nearby observations tend to be similar, violating one of the major assumptions of classical statistics—that of observation independence. |
Negative SA | nearby values tend to be dissimilar. |
Positive SA | nearby values tend to be similar. |
Spatial heterogeneity | the factors associated with an outcome, and therefore the process, will vary in space. Also referred to as spatial non-stationarity. |
1、空间数据的关键特征
(1) :空间精度,当然生物学上最好是单细胞精度
(2): 空间相关性,即空间角度细胞之间的相互影响
(3):空间异质性,即空间的时空变化
Conceptual illustration depicting the analogous problems encountered in the fields of geographical sciences and spatial transcriptomics
1.1 空间精度
空间转录组学实验产生了生物组织的图谱,以及关于该图谱上位置的相关信息(一系列基因的表达)。通常,这些信息被分析为若干区域,可以是从单个细胞到大型多细胞组织的任何部分。如果改变空间区域的大小,可以得到不同的结果。
Demonstration of the effect of aggregation on correlation, as described by the modifiable areal unit problem (MAUP)
1.2 空间相关性
一切事物都与其他事物有关,但近处的事物比远处的事物更相关。
空间邻域可以由距离来定义,并且空间相关性可以分析空间的邻域变量(细胞和基因)。
细胞的行为受到其周围环境的影响,包括细胞内信号和与邻近细胞的直接接触。因此,这意味着细胞变量(例如表达的基因),当在其空间环境中考虑时,取决于其周围环境。这表明,公认的scRNA-seq分析统计方法并不完全适合从空间定向的空间转录组学实验中分析数据,因为单细胞的假设检验是独立的。
Spatial autocorrelation highlights regions of statistical similarity in genewise expression
1.3 空间异质性
空间异质性描述了一个过程在定义区域内不同位置的变化。像单个基因表达这样的单个变量可以在组织的不同部分发生变化,在这种情况下,这个单个基因被认为表现出空间异质性。例如肿瘤微环境,肿瘤微环境往往伴随着强烈的区域变异。
Spatial heterogeneity revealed by varying local regression coefficients across a spatial transcriptomics experiment
2、Spatially aware spatial transcriptomics analysis
2.1 空间聚类
标准聚类分析不考虑值的空间分布,只考虑值的相似性。
而如果考虑空间信息,需要考虑基因表达的空间模式,从而导致hotspot和/或coldspot,从而影响聚类。
应该区分空间聚类和空间位置加权聚类,空间聚类试图分析空间上表达相似的区域,空间位置加权聚类则需要考虑空间特征。
2.2 空间可变基因的定位
所有的转录组学实验,无论是bulk、单细胞还是空间,都在分析基因表达。空间转录组学提供了将这种表达体现到组织上特定位置的能力,这也可能与特定过程或细胞的存在有关。生成基因表达的空间图可以揭示对这些基因功能的过程见解。更重要的是,通过考虑空间相关性并在适当的尺度上检查空间异质性,有可能探索一个生物学过程在空间上的潜在平稳性或非平稳性。
2.3 空间注释
主要是空间形态学注释。
3、其他空转的分析方法
空间转录组学作为一种技术的历史很短,这也意味着用于空间转录组数据分析的工具正在激增。在许多情况下,这些工具利用了为批量或更常见的单细胞分析开发的技术,并将其直接应用于空间转录组学数据。空间转录组学数据的分析方法包括聚类、去卷积、图像分割、3D重建、细胞-细胞相互作用和数据集成等。
聚类是一种有用的工具,因为它对数据进行结构化和排序,允许从复杂的多变量数据集中获得有用的见解,随后,使用这些见解对观察到的数据进行分类或生成假设。例如,Louvain聚类使用Visium数据揭示了健康和患病肝组织的区域模式。
分辨率大于单细胞的空间转录组学技术,如Visium,通常需要基因表达去卷积,以帮助了解捕获区域的细胞类型组成。最常见的去卷积方法依赖于相关的scRNA-seq数据集,该数据集可作为识别空间转录组学数据集中每种细胞类型比例的参考。许多计算方法被用来利用这些参考数据来对空间转录组学数据进行去卷积,包括深度学习和人工智能、贝叶斯模型以及其他统计方法。
与反卷积相反,高分辨率技术通常需要对空间spot进行合并。这可以使用图像分割方法来识别组织的高分辨率显微镜图像中的细胞边界来实现。分割方法可以使用检测到的转录组的分布,例如Baysor,或者可以将组织学图像数据与空间转录组学相结合。
空间转录组学数据很少单独存在,通常需要将它们与其他相关数据类型相结合,以丰富对单个数据集的解释。