Cell | 空间转录组数据分析的潜力

作者,Evil Genius
五一劳动节,还是要劳动的。
空间转录组在表征表达信息的同时,同时保留了空间信息。
这些数据对生物信息学的分析提出了新的要求——如何有效地利用空间信息?具有空间维度的数据属性需要特殊处理,与非空间数据相比,这需要一组不同的统计和推理考虑。
细胞的表型在很大程度上是由其转录组决定的,细胞是组织的基本单位。因此,从组织中提供每个细胞转录组谱的技术对于在细胞水平上理解组织组织和功能是必不可少的。单细胞RNA测序(scRNA-seq)已被证明是一种非常宝贵的方法,可以在单细胞分辨率下生成相对完整的数据。广泛的scRNA-seq技术已经开发出来,这些技术采用不同的方法进行细胞分离和RNA扩增,这反过来又影响了技术的灵敏度和细胞的数量。
自2016年首次空间转录组学实验以来,基于测序的方法得到了快速发展。例如,10x Genomics Visium使用55 μm的尺寸,而slide - seq/V2使用10um的磁珠。Stereo-seq使用DNA纳米球阵列和原位RNA捕获,提供了500纳米的改进分辨率,这意味着基于测序的空间技术可以提供亚细胞分辨率。
空间转录组学方法产生三种不同但相互关联的数据类型:(1)图像数据,(2)表达数据,(3)空间方向和位置。典型的空间转录组学分析工作流程倾向于将每个空间点视为类似单细胞水平,并相应地分析处理,而忽略不同观察结果的相对位置。但是表达数据及其空间属性在一定程度上是纠缠在一起的,如果不考虑空间信息,就不能正确地分析转录组信息,因此单独处理转录组信息会丢失重要信息。
目前利用空间转录组学的研究大致可分为三类。首先是那些使用转录组数据进行聚类的;第二种是考虑特定细胞/基因定位的方法;第三种,需要考虑基因表达差异的研究,即细胞基因的时空模型。在许多实验中,空间信息被用来划分确定感兴趣的特定区域。然而,空间信息作为空间转录组最重要的组成部分,使用坐标信息作为待分析空转数据的固有部分仍需要挖掘。
空间分析的关键术语,这些词汇早已深深嵌入到空间转录组的分析中
词汇解释
Aggregation problema variation in the results will be observed when we use alternative combinations of areal units, even on the same scale.
Bandwidtha parameter describing how localized a geographically weighted regression model is.
Curse of dimensionalitythe higher the number of dimensions used, the more equidistant the observations are.
Geographically weighted regression (GWR)a method that takes spatial heterogeneity into account because it allows for the relationships between the independent and the dependent variables to alter locally.
Global spatial autocorrelation measuresstatistics assessing the degree of spatial autocorrelation for a variable in the whole dataset.
Hot and cold spotsaggregations in space of high (hot) or low (cold) values for a variable.
Interesting locationsa term used instead of “statistically significant” when considering pseudo-p-values in multivariate space.
Local indicators of multivariate spatial association (LIMSA)measure of the extent to which neighbors in multivariate space (i.e., spots with gene expression profiles similar to each other) are also neighbors in geographical space.
Local indicators of spatial association (LISA)see local spatial autocorrelation measures
Local spatial autocorrelation measuresstatistics assessing the degree of spatial autocorrelation for a variable in every location compared to its neighbors.
Modifiable aerial unit problem (MAUP)the choice of spatial data aggregation scale will influence the statistical relationships and process understanding from analyses.
Multiscale GWR (MGWR)geographically weighted regression that operates in multiple scales by identifying the best bandwidth for each independent variable.
Pseudo-p-valuea p value calculated from a normal distribution generated by computational permutations that must be treated with caution.
Scale problemdifferent results will be obtained when we aggregate the same set of data on different scales.
Spatial autocorrelation (SA)nearby observations tend to be similar, violating one of the major assumptions of classical statistics—that of observation independence.
Negative SAnearby values tend to be dissimilar.
Positive SAnearby values tend to be similar.
Spatial heterogeneitythe factors associated with an outcome, and therefore the process, will vary in space. Also referred to as spatial non-stationarity.
1、空间数据的关键特征

(1) :空间精度,当然生物学上最好是单细胞精度
(2): 空间相关性,即空间角度细胞之间的相互影响
(3):空间异质性,即空间的时空变化

Conceptual illustration depicting the analogous problems encountered in the fields of geographical sciences and spatial transcriptomics

1.1 空间精度

空间转录组学实验产生了生物组织的图谱,以及关于该图谱上位置的相关信息(一系列基因的表达)。通常,这些信息被分析为若干区域,可以是从单个细胞到大型多细胞组织的任何部分。如果改变空间区域的大小,可以得到不同的结果。

Demonstration of the effect of aggregation on correlation, as described by the modifiable areal unit problem (MAUP)

1.2 空间相关性

一切事物都与其他事物有关,但近处的事物比远处的事物更相关。

空间邻域可以由距离来定义,并且空间相关性可以分析空间的邻域变量(细胞和基因)

细胞的行为受到其周围环境的影响,包括细胞内信号和与邻近细胞的直接接触。因此,这意味着细胞变量(例如表达的基因),当在其空间环境中考虑时,取决于其周围环境。这表明,公认的scRNA-seq分析统计方法并不完全适合从空间定向的空间转录组学实验中分析数据,因为单细胞的假设检验是独立的。

Spatial autocorrelation highlights regions of statistical similarity in genewise expression

1.3 空间异质性

空间异质性描述了一个过程在定义区域内不同位置的变化。像单个基因表达这样的单个变量可以在组织的不同部分发生变化,在这种情况下,这个单个基因被认为表现出空间异质性。例如肿瘤微环境,肿瘤微环境往往伴随着强烈的区域变异。

Spatial heterogeneity revealed by varying local regression coefficients across a spatial transcriptomics experiment

2、Spatially aware spatial transcriptomics analysis
2.1 空间聚类

标准聚类分析不考虑值的空间分布,只考虑值的相似性。

而如果考虑空间信息,需要考虑基因表达的空间模式,从而导致hotspot和/或coldspot,从而影响聚类。

应该区分空间聚类和空间位置加权聚类,空间聚类试图分析空间上表达相似的区域,空间位置加权聚类则需要考虑空间特征。

2.2 空间可变基因的定位

所有的转录组学实验,无论是bulk、单细胞还是空间,都在分析基因表达。空间转录组学提供了将这种表达体现到组织上特定位置的能力,这也可能与特定过程或细胞的存在有关。生成基因表达的空间图可以揭示对这些基因功能的过程见解。更重要的是,通过考虑空间相关性并在适当的尺度上检查空间异质性,有可能探索一个生物学过程在空间上的潜在平稳性或非平稳性。

2.3 空间注释

主要是空间形态学注释

3、其他空转的分析方法

空间转录组学作为一种技术的历史很短,这也意味着用于空间转录组数据分析的工具正在激增。在许多情况下,这些工具利用了为批量或更常见的单细胞分析开发的技术,并将其直接应用于空间转录组学数据。空间转录组学数据的分析方法包括聚类、去卷积、图像分割、3D重建、细胞-细胞相互作用和数据集成等。

聚类是一种有用的工具,因为它对数据进行结构化和排序,允许从复杂的多变量数据集中获得有用的见解,随后,使用这些见解对观察到的数据进行分类或生成假设。例如,Louvain聚类使用Visium数据揭示了健康和患病肝组织的区域模式。

分辨率大于单细胞的空间转录组学技术,如Visium,通常需要基因表达去卷积,以帮助了解捕获区域的细胞类型组成。最常见的去卷积方法依赖于相关的scRNA-seq数据集,该数据集可作为识别空间转录组学数据集中每种细胞类型比例的参考。许多计算方法被用来利用这些参考数据来对空间转录组学数据进行去卷积,包括深度学习和人工智能、贝叶斯模型以及其他统计方法。

与反卷积相反,高分辨率技术通常需要对空间spot进行合并。这可以使用图像分割方法来识别组织的高分辨率显微镜图像中的细胞边界来实现。分割方法可以使用检测到的转录组的分布,例如Baysor,或者可以将组织学图像数据与空间转录组学相结合。

空间转录组学数据很少单独存在,通常需要将它们与其他相关数据类型相结合,以丰富对单个数据集的解释。

参考文章Mapping the transcriptome: Realizing the full potential of spatial data analysis
生活很好,有你更好
  • 29
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在R语言中,可以使用一些包来读取和处理空间转录数据,常用的包有Seurat、SpatialTranscriptomics和STUtility等。这里以Seurat包为例,介绍如何读取空间转录数据。 1. 安装Seurat包 在R语言中,需要先安装Seurat包。可以使用以下代码进行安装: ``` install.packages("Seurat") ``` 2. 读取数据 在使用Seurat包之前,需要将空间转录数据读入R语言环境中。通常使用的数据格式有10x Genomics Visium、NanoString GeoMx和Spatial Transcriptomics等。Seurat包中提供了一些函数来读取这些数据格式,如Read10X()、ReadVisium()和ReadSpatial()等。 例如,使用以下代码读取10x Genomics Visium格式的空间转录数据: ``` library(Seurat) data <- ReadVisium("path/to/data") ``` 其中,"path/to/data"是数据文件的路径。 3. 数据预处理 读入数据后,需要进行一些数据预处理,如基因过滤、归一化和批次效应校正等。Seurat包提供了一些函数来进行这些预处理操作,如FilterCells()、NormalizeData()和IntegrateData()等。 例如,使用以下代码对数据进行基因过滤和归一化: ``` data <- FilterCells(data, min.cells = 3, min.genes = 200) data <- NormalizeData(data) ``` 其中,FilterCells()函数可以去除低质量的细胞和基因,min.cells和min.genes参数分别表示每个细胞和每个基因的最小表达量。NormalizeData()函数可以将数据进行归一化。 4. 可视化 数据预处理完成后,可以使用Seurat包中的SpatialPlot()函数对空间转录数据进行可视化。SpatialPlot()函数可以将细胞和基因的空间位置信息与基因表达量进行可视化,并使用t-SNE或UMAP等算法将细胞投影到二维空间中。 例如,使用以下代码对空间转录数据进行可视化: ``` data <- RunTSNE(data) SpatialPlot(data, label = "gene", gene = "ACTB") ``` 其中,RunTSNE()函数使用t-SNE算法将细胞投影到二维空间中,SpatialPlot()函数用于可视化数据。gene参数用于指定要可视化的基因,label参数用于指定标签的类型,可以是"cell"、"gene"或"both"。 5. 差异表达基因分析 可视化完成后,可以使用Seurat包中的FindMarkers()函数对不同空间区域之间的差异表达基因进行分析。FindMarkers()函数可以使用Wilcoxon秩和检验或t检验等方法来进行差异分析,并计算每个基因在不同空间区域中的平均表达量和差异表达程度。 例如,使用以下代码对不同空间区域之间的差异表达基因进行分析: ``` markers <- FindMarkers(data, ident.1 = "area1", ident.2 = "area2") head(markers) ``` 其中,ident.1和ident.2参数分别表示要比较的两个空间区域的标识符,FindMarkers()函数会返回一个包含差异表达基因信息的数据框。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值