论文解析:Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution
参考论文
Li, B., Zhang, W., Guo, C. et al. Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods (2022). https://doi.org/10.1038/s41592-022-01480-9
背景
- 测序手段
(1)基于图像的方法:seqFISH, osmFISH,MERFISH
限制:可检测的RNA转录组数目
(2)基于高通量测序的方法:ST,10X Visium,Slide-seq
限制:分辨率可能不够高,半径10-100微米,每个位点可能包括若干细胞 - 已有结合空间转录组数据和单细胞测序数据的方法
方法名称 | 时间 | 算法 | 论文 |
---|---|---|---|
gimVI | 2019 | 深度生成模型 | Lopez, R. et al. A joint model of unpaired data from scRNA-seq and spatialtranscriptomics for imputing missing gene expression measurements. ICML Workshop on Computational Biology (2019) |
SpaGE | 2020 | 域自适应模型,KNN | Abdelaal, T., Mourragui, S., Mahfouz, A. & Reinders, M. J. T. SpaGE: spatial gene enhancement using scRNA-seq. Nucleic Acids Res. 48, e107 (2020) |
Tangram | 2021 | 非凸优化,深度学习 | Biancalani, T. et al. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram. Nat. Methods 18, 1352–1362 (2021) |
Seurat | 2019 | 典型相关分析 | Stuart, T. et al. Comprehensive integration of single-cell data. Cell 177, 1888–1902 e1821 (2019) |
LIGER | 2019 | 非负矩阵分解,共享因子邻域图 | Welch, J. D. et al. Single-Cell Multi-omic integration compares and contrasts features of brain cell identity. Cell 177, 1873–1887 e1817 (2019) |
novoSpaRc | 2019 | 最佳运输方法 | Nitzan, M., Karaiskos, N., Friedman, N. & Rajewsky, N. Gene expression cartography. Nature 576, 132–137 (2019) |
SpaOTsc | 2020 | 最佳运输方法 | Cang, Z. & Nie, Q. Inferring spatial and signaling relationships between cells from single cell transcriptomic data. Nat. Commun. 11, 2084 (2020) |
stPlus | 2021 | Auto-encoder,加权KNN | Chen, S. Q., Zhang, B. H., Chen, X. Y., Zhang, X. G. & Jiang, R. stPlus: a reference-based method for the accurate enhancement of spatial transcriptomics. Bioinformatics 37, I299–I307 (2021) |
Cell2location | 2022 | 贝叶斯模型 | Kleshchevnikov, V. et al. Cell2location maps fine-grained cell types in spatial transcriptomics. Nat Biotechnol. 1-11, https://doi.org/10.1038/s41587-021-01139-4 (2022) |
RCTD | 2021 | 统计模型 | Cable, D. M. et al. Robust decomposition of cell type mixtures in spatial transcriptomics. Nat. Biotechnol. 40, 517–526 (2021) |
SpatialDWLS | 2021 | 加权最小二乘法 | Dong, R. & Yuan, G. C. SpatialDWLS: accurate deconvolution of spatial transcriptomic data. Genome Biol. 22, 145 (2021) |
Stereoscope | 2020 | 基于模型的概率统计方法 | Andersson, A. et al. Single-cell and spatial transcriptomics enables probabilistic inference of cell type topography. Commun. Biol. 3, 565 (2020) |
SPOTlight | 2021 | 种子非负矩阵分解 | Elosua-Bayes, M., Nieto, P., Mereu, E., Gut, I. & Heyn, H. SPOTlight: seeded NMF regression to deconvolute spatial transcriptomics spots with single-cell transcriptomes. Nucleic Acids Res. 49, e50 (2021) |
DSTG | 2021 | 基于图的卷积网络 | Song, Q. Q. & Su, J. DSTG: deconvoluting spatial transcriptomics data through graph-based artificial intelligence. Brief. Bioinform. 22, bbaa414 (2021) |
STRIDE | 2022 | 生成概率模型 | Sun, D., Liu, Z., Li, T., Wu, Q. & Wang, C. STRIDE: accurately decomposing and integrating spatial transcriptomics using single-cell RNA sequencing. Nucleic Acids Res. gkac150 (2022) |
DestVI | 2022 | 变分推断,潜变量模型 | Lopez, R. et al. Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation. Nat. Biotechnol. in press (2022) |
- 16个算法,45对匹配数据集,32个模拟数据集
结果
评估流程
- 收集45对匹配的真实scRNA-seq数据集和空间转录组数据集
- 数据预处理
(1)删除低于200RNA表达量的细胞。
(2)如果RNA数量低于1000,则使用全部RNA表达量;如果RNA数量高于1000,则根据方差系数选择top 1000 的高变化RNA。
(3)生成16对匹配的模拟scRNA-seq数据集和空间转录组数据集,空间每个位点包含5-15个细胞,表达量为所有细胞累计表达值。 - 评估所有算法解决2个问题的能力
(1)预测未检测空间位点的基因表达水平
(2)每个位点的细胞类型分布识别 - 方法性能主要从准确率、鲁棒性、计算资源消耗这三方面进行评估。
任务 | 算法 |
---|---|
检测空间转录组未检测位点的基因表达值 | Tangram, gimVI, SpaGE,Seurat, SpaOTsc, novoSpaRc, LIGER, stPlus |
将scRNA-seq数据中的细胞分配到组织切片的空间位置 | Tangram, Seurat, SpaOTsc, and novoSpaRc |
解析空间位点的细胞组成 | Cell2location, SpatialDWLS, RCTD, Stereoscope, DestVI, STRIDE, SPOTlight, DSTG |
预测RNA转录组的空间位置
评价指标
- 10折交叉验证
- 每个基因在空间转录组数据中的表达水平与预测表达水平的PCC系数(基因按照空间位置对其,形成相同顺序的基因表达向量)–越高越好
- SSIM(结构相似性指数):结合平均值、方差和协方差来衡量变量之间相似性–越高越好
- RMSE(均方根误差):两个变量之间的绝对误差–越低越好
- JS(JS散度):使用相对信息熵来衡量两个分布之间的差异–越低越好
- AS(Accuracy Score):整合以上4个评价指标以简化评价过程的指标–越高越好
PCC和SSIM递增排序,所以好方法Rank值很大;RMSE和JS递减排序,所以好方法Rank值很大;求平均值后最好的方法AS值最大,最差的方法AS值最低。
评估已知marker gene的表达水平分布
- 以大脑皮层L5/L6层高表达的基因Igsf21和Rprm为例,与金标准对比,Tangram,SpaGE和Seurat算法准确度最高。
- 用小鼠大脑皮层数据集代表基于图像的转录组方法数据,对比发现Tangram在PCC和SSIM值最高,JS和RMSE值最低,综合起来AS值也最高
- 检测输入数据的标准化对方法预测的影响,包括四种输入方案:空间数据的基因表达水平(原始数据/标准化数据),scRNA-seq(原始数据/标准化数据)。实验发现,将空间数据的基因表达水平原始数据作为输入通常预测结果更好。
评估基因表达矩阵稀疏性的影响
- 作者发现所有方法在datasets 12, 13, 40, 44上性能普遍偏低,所以考虑以下4种影响结果的因素:表达矩阵的稀疏性,基因数量,空间位点数量,每个位点的基因数量。通过实验发现,JS值随着表达矩阵稀疏性提高线性升高。
- 将所有方法均应用于dataset4的原始样本和下采样样本(更稀疏),横坐标为原始样本,纵坐标为下采样样本。每个点表示一个基因得到的PCC值,整体看稀疏样本的PCC值更低。红色部分为2种样本中PCC值均高于0.5的部分,RS为红色基因占总基因的比例。结果表明Tangram算法对稀疏样本的鲁棒性最高。
接着,作者在dataset4上研究所有算法随着数据稀疏度的增高,RS值变化情况;结果表明Tangram最优秀。作者在19个数据集上进行数据稀疏性鲁棒性实验,Tangram依然最好。
评估方法对细胞类型解卷积的性能
- dataset10的scRNA-seq包括1549个细胞,15种细胞类型;把他网格化形成模拟空间转录组,每个位点包括1-18个细胞,则该模拟数据集每个位点的真实细胞构成是已知的,将此作为评估算法进行细胞类型解卷积的金标准。
- a图为模拟空间转录组的细胞分布,b图以L4兴奋性神经元细胞为例,比较这类细胞金标准中的空间分布与算法预测结果中的空间分布。b图结果表明RCTD与Stereoscope算法PCC最高,cde为所有方法在其他数据集得到的AS指标对比情况,可以看出不同数据集第一名的方法不同。
评估方法的计算资源
- a-c对比所有能够预测未检测位点的基因表达水平方法,在不同数据量下,空间位点数量对计算时间的影响,结果表明Seurat是对计算消耗最低的方法。
- d对比所有能够对位点的细胞类型进行解卷积的方法,在大数据集下的计算平台及运行时间,结果表明Tangram和DestVI占用内存最少。
- e-g对比所有细胞解卷积方法,对scRNA-seq中细胞数量,ST中位点数量,细胞类型数量的敏感性,结果表情明Tangram和Seurat是效率最高的算法。
总结和讨论
- 对解决每个问题的优秀方法进行总结,包括其实现框架,性能指标,计算时间等。
- 空间转录组表达矩阵的稀疏性严重影响了8种预测RNA转录本空间分布的整合方法的性能,因此可以采用一些数据插补的方法提高预测精度。
- 空间转录组学的潜在应用是预测空间上相互接近的两种细胞类型之间配体受体的相互作用。许多分析工具已经为此任务开发,然而,不同方法得出的结果之间的巨大差异使信息对比变得困难。