论文解析-多模态单细胞数据对角整合综述

文章探讨了对角整合在多模态单细胞数据融合中的应用,指出了组学间类型对应错误和对角整合陷阱等问题。通过模拟实验,提出了利用部分共享特征和构建特征相关矩阵等改进方法,强调了在整合过程中考虑生物先验知识的重要性。
摘要由CSDN通过智能技术生成

参考

Xu, Y., McCord, R.P. Diagonal integration of multimodal single-cell data: potential pitfalls and paths forward. Nat Commun 13, 3505 (2022). https://doi.org/10.1038/s41467-022-31104-x

背景

  1. 整合多组学单细胞数据有望帮助我们从不同角度理解复杂的细胞系统,如基因表达、染色体结构,甚至细胞成像,可以揭示调控网络和细胞功能的详细图景。
  2. 不同类型的组学数据通常不具有相同的特征:
组学名称数据特征
转录组学描述基因的表达
表观基因组学衡量基因组所有区域的蛋白质修饰或可及性
  1. 对角整合意味着两个不同模态的组学数据之间,既不需要相同的细胞,也不需要相同的数据类型。难度最大同时可用性最高。
    在这里插入图片描述

方法

统一核心思想

流行对齐:将不同模态数据映射到同一潜在空间

大体步骤

  1. 保存每个模态中的细胞类型结构
  2. 将不同模态的细胞进行对齐

现存问题-组学间类型对应错误

起因

将不同模态数据融合到同一流行空间的前提是,认为不同模态数据产生于类似的分布或服从类似的过程,但现实测序过程并非如此,

对角整合陷阱

当前算法得出的最优解是满足数学解的结果,但并不一定是最准确的生物解。正确的做法是将无需生物先验知识的数学解与真实细胞类别的生物解区分开来。

实验设置

通过将真实的小数scRNA-seq数据集根据细胞分为两部分,模拟2种不同特征空间的模态数据。图a包括5种模拟场景,图b根据模态上色,图c为5个方法至少在一种模拟场景中类型匹配错误(理想的是同一细胞类型在不同模态中处于相同位置)。
在这里插入图片描述

后续工作

可以通过以上这种模拟多模态数据的方式评估对角整合算法对不同模态之间的细胞类型对应性能,以进一步改进算法。

改进方式-部分先验知识和基准

利用部分共享特征

对于scRNA-seq和scATAC-seq这种线性基因组学技术,它们之间很容易找到共享的特征(基因)。
利用这部分共享特征作为基准,可以大程度解决以上问题。
在这里插入图片描述
在这里插入图片描述
上图为无先验知识的对角整合,可见在2个模态之间的绿色和橙色细胞类型对应出现错误;下图是同一算法在考虑了共享特征后进行对角整合的结果,对所有颜色的细胞类型均有正确的对应关系。

同时,其他值得研究的问题是:

  1. 如何用最少的共享特征达到有意义的整合
  2. 如何确定最小的共享特征集合

构建特征相关矩阵

对于基因表达和染色质结构,可能无法找到他们之间的共享特征。此时,可以构建这两个特征空间的相关矩阵,来表征一个模态中的特征可能与另一个模态的哪些特征相关。

整合共测序技术和对角整合方法是多组学数据统一融合的框架

现有的对同细胞进行多组学测序的技术提供的少量数据集可以作为参考数据集,便于对角整合算法的模型训练与性能评估。在工测序技术提供的标签下,使多组学数据利用共享特征进行统一融合成为可能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值