论文解析:scRNA-seq结合空间转录组综述

参考论文

Li, B., Zhang, W., Guo, C. et al. Benchmarking spatial and single-cell transcriptomics integration methods for transcript distribution prediction and cell type deconvolution. Nat Methods (2022). https://doi.org/10.1038/s41592-022-01480-9

背景

  1. 测序手段
    (1)基于图像的方法:seqFISH, osmFISH,MERFISH
    限制:可检测的RNA转录组数目
    (2)基于高通量测序的方法:ST,10X Visium,Slide-seq
    限制:分辨率可能不够高,半径10-100微米,每个位点可能包括若干细胞
  2. 已有结合空间转录组数据和单细胞测序数据的方法
方法名称时间算法论文
gimVI2019深度生成模型Lopez, R. et al. A joint model of unpaired data from scRNA-seq and spatialtranscriptomics for imputing missing gene expression measurements. ICML Workshop on Computational Biology (2019)
SpaGE2020域自适应模型,KNNAbdelaal, T., Mourragui, S., Mahfouz, A. & Reinders, M. J. T. SpaGE: spatial gene enhancement using scRNA-seq. Nucleic Acids Res. 48, e107 (2020)
Tangram2021非凸优化,深度学习Biancalani, T. et al. Deep learning and alignment of spatially resolved single-cell transcriptomes with Tangram. Nat. Methods 18, 1352–1362 (2021)
Seurat2019典型相关分析Stuart, T. et al. Comprehensive integration of single-cell data. Cell 177, 1888–1902 e1821 (2019)
LIGER2019非负矩阵分解,共享因子邻域图Welch, J. D. et al. Single-Cell Multi-omic integration compares and contrasts features of brain cell identity. Cell 177, 1873–1887 e1817 (2019)
novoSpaRc2019最佳运输方法Nitzan, M., Karaiskos, N., Friedman, N. & Rajewsky, N. Gene expression cartography. Nature 576, 132–137 (2019)
SpaOTsc2020最佳运输方法Cang, Z. & Nie, Q. Inferring spatial and signaling relationships between cells from single cell transcriptomic data. Nat. Commun. 11, 2084 (2020)
stPlus2021Auto-encoder,加权KNNChen, S. Q., Zhang, B. H., Chen, X. Y., Zhang, X. G. & Jiang, R. stPlus: a reference-based method for the accurate enhancement of spatial transcriptomics. Bioinformatics 37, I299–I307 (2021)
Cell2location2022贝叶斯模型Kleshchevnikov, V. et al. Cell2location maps fine-grained cell types in spatial transcriptomics. Nat Biotechnol. 1-11, https://doi.org/10.1038/s41587-021-01139-4 (2022)
RCTD2021统计模型Cable, D. M. et al. Robust decomposition of cell type mixtures in spatial transcriptomics. Nat. Biotechnol. 40, 517–526 (2021)
SpatialDWLS2021加权最小二乘法Dong, R. & Yuan, G. C. SpatialDWLS: accurate deconvolution of spatial transcriptomic data. Genome Biol. 22, 145 (2021)
Stereoscope2020基于模型的概率统计方法Andersson, A. et al. Single-cell and spatial transcriptomics enables probabilistic inference of cell type topography. Commun. Biol. 3, 565 (2020)
SPOTlight2021种子非负矩阵分解Elosua-Bayes, M., Nieto, P., Mereu, E., Gut, I. & Heyn, H. SPOTlight: seeded NMF regression to deconvolute spatial transcriptomics spots with single-cell transcriptomes. Nucleic Acids Res. 49, e50 (2021)
DSTG2021基于图的卷积网络Song, Q. Q. & Su, J. DSTG: deconvoluting spatial transcriptomics data through graph-based artificial intelligence. Brief. Bioinform. 22, bbaa414 (2021)
STRIDE2022生成概率模型Sun, D., Liu, Z., Li, T., Wu, Q. & Wang, C. STRIDE: accurately decomposing and integrating spatial transcriptomics using single-cell RNA sequencing. Nucleic Acids Res. gkac150 (2022)
DestVI2022变分推断,潜变量模型Lopez, R. et al. Multi-resolution deconvolution of spatial transcriptomics data reveals continuous patterns of inflammation. Nat. Biotechnol. in press (2022)
  1. 16个算法,45对匹配数据集,32个模拟数据集

结果

评估流程

  1. 收集45对匹配的真实scRNA-seq数据集和空间转录组数据集
  2. 数据预处理
    (1)删除低于200RNA表达量的细胞。
    (2)如果RNA数量低于1000,则使用全部RNA表达量;如果RNA数量高于1000,则根据方差系数选择top 1000 的高变化RNA。
    (3)生成16对匹配的模拟scRNA-seq数据集和空间转录组数据集,空间每个位点包含5-15个细胞,表达量为所有细胞累计表达值。
  3. 评估所有算法解决2个问题的能力
    (1)预测未检测空间位点的基因表达水平
    (2)每个位点的细胞类型分布识别
  4. 方法性能主要从准确率、鲁棒性、计算资源消耗这三方面进行评估。
    在这里插入图片描述
任务算法
检测空间转录组未检测位点的基因表达值Tangram, gimVI, SpaGE,Seurat, SpaOTsc, novoSpaRc, LIGER, stPlus
将scRNA-seq数据中的细胞分配到组织切片的空间位置Tangram, Seurat, SpaOTsc, and novoSpaRc
解析空间位点的细胞组成Cell2location, SpatialDWLS, RCTD, Stereoscope, DestVI, STRIDE, SPOTlight, DSTG

预测RNA转录组的空间位置

评价指标

  1. 10折交叉验证
  2. 每个基因在空间转录组数据中的表达水平预测表达水平的PCC系数(基因按照空间位置对其,形成相同顺序的基因表达向量)–越高越好
  3. SSIM(结构相似性指数):结合平均值、方差和协方差来衡量变量之间相似性–越高越好
  4. RMSE(均方根误差):两个变量之间的绝对误差–越低越好
  5. JS(JS散度):使用相对信息熵来衡量两个分布之间的差异–越低越好
  6. AS(Accuracy Score):整合以上4个评价指标以简化评价过程的指标–越高越好
    PCC和SSIM递增排序,所以好方法Rank值很大;RMSE和JS递减排序,所以好方法Rank值很大;求平均值后最好的方法AS值最大,最差的方法AS值最低。
    在这里插入图片描述

评估已知marker gene的表达水平分布

  1. 以大脑皮层L5/L6层高表达的基因Igsf21Rprm为例,与金标准对比,Tangram,SpaGE和Seurat算法准确度最高。
    在这里插入图片描述
    在这里插入图片描述
  2. 用小鼠大脑皮层数据集代表基于图像的转录组方法数据,对比发现Tangram在PCC和SSIM值最高,JS和RMSE值最低,综合起来AS值也最高
    在这里插入图片描述
  3. 检测输入数据的标准化对方法预测的影响,包括四种输入方案:空间数据的基因表达水平(原始数据/标准化数据),scRNA-seq(原始数据/标准化数据)。实验发现,将空间数据的基因表达水平原始数据作为输入通常预测结果更好。
    在这里插入图片描述

评估基因表达矩阵稀疏性的影响

  1. 作者发现所有方法在datasets 12, 13, 40, 44上性能普遍偏低,所以考虑以下4种影响结果的因素:表达矩阵的稀疏性,基因数量,空间位点数量,每个位点的基因数量。通过实验发现,JS值随着表达矩阵稀疏性提高线性升高。
    在这里插入图片描述
  2. 将所有方法均应用于dataset4的原始样本和下采样样本(更稀疏),横坐标为原始样本,纵坐标为下采样样本。每个点表示一个基因得到的PCC值,整体看稀疏样本的PCC值更低。红色部分为2种样本中PCC值均高于0.5的部分,RS为红色基因占总基因的比例。结果表明Tangram算法对稀疏样本的鲁棒性最高。
    在这里插入图片描述
    接着,作者在dataset4上研究所有算法随着数据稀疏度的增高,RS值变化情况;结果表明Tangram最优秀。作者在19个数据集上进行数据稀疏性鲁棒性实验,Tangram依然最好。

评估方法对细胞类型解卷积的性能

  1. dataset10的scRNA-seq包括1549个细胞,15种细胞类型;把他网格化形成模拟空间转录组,每个位点包括1-18个细胞,则该模拟数据集每个位点的真实细胞构成是已知的,将此作为评估算法进行细胞类型解卷积的金标准。
  2. a图为模拟空间转录组的细胞分布,b图以L4兴奋性神经元细胞为例,比较这类细胞金标准中的空间分布与算法预测结果中的空间分布。b图结果表明RCTD与Stereoscope算法PCC最高,cde为所有方法在其他数据集得到的AS指标对比情况,可以看出不同数据集第一名的方法不同。

在这里插入图片描述

评估方法的计算资源

  1. a-c对比所有能够预测未检测位点的基因表达水平方法,在不同数据量下,空间位点数量对计算时间的影响,结果表明Seurat是对计算消耗最低的方法。
  2. d对比所有能够对位点的细胞类型进行解卷积的方法,在大数据集下的计算平台及运行时间,结果表明Tangram和DestVI占用内存最少。
  3. e-g对比所有细胞解卷积方法,对scRNA-seq中细胞数量,ST中位点数量,细胞类型数量的敏感性,结果表情明Tangram和Seurat是效率最高的算法。
    在这里插入图片描述

总结和讨论

  1. 对解决每个问题的优秀方法进行总结,包括其实现框架,性能指标,计算时间等。
    在这里插入图片描述
  2. 空间转录组表达矩阵的稀疏性严重影响了8种预测RNA转录本空间分布的整合方法的性能,因此可以采用一些数据插补的方法提高预测精度。
  3. 空间转录组学的潜在应用是预测空间上相互接近的两种细胞类型之间配体受体的相互作用。许多分析工具已经为此任务开发,然而,不同方法得出的结果之间的巨大差异使信息对比变得困难。
  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值