论文解析-多模态单细胞数据对角整合综述
参考
Xu, Y., McCord, R.P. Diagonal integration of multimodal single-cell data: potential pitfalls and paths forward. Nat Commun 13, 3505 (2022). https://doi.org/10.1038/s41467-022-31104-x
背景
- 整合多组学单细胞数据有望帮助我们从不同角度理解复杂的细胞系统,如基因表达、染色体结构,甚至细胞成像,可以揭示调控网络和细胞功能的详细图景。
- 不同类型的组学数据通常不具有相同的特征:
组学名称 | 数据特征 |
---|---|
转录组学 | 描述基因的表达 |
表观基因组学 | 衡量基因组所有区域的蛋白质修饰或可及性 |
- 对角整合意味着两个不同模态的组学数据之间,既不需要相同的细胞,也不需要相同的数据类型。难度最大同时可用性最高。
方法
统一核心思想
流行对齐:将不同模态数据映射到同一潜在空间
大体步骤
- 保存每个模态中的细胞类型结构
- 将不同模态的细胞进行对齐
现存问题-组学间类型对应错误
起因
将不同模态数据融合到同一流行空间的前提是,认为不同模态数据产生于类似的分布或服从类似的过程,但现实测序过程并非如此,
对角整合陷阱
当前算法得出的最优解是满足数学解的结果,但并不一定是最准确的生物解。正确的做法是将无需生物先验知识的数学解与真实细胞类别的生物解区分开来。
实验设置
通过将真实的小数scRNA-seq数据集根据细胞分为两部分,模拟2种不同特征空间的模态数据。图a包括5种模拟场景,图b根据模态上色,图c为5个方法至少在一种模拟场景中类型匹配错误(理想的是同一细胞类型在不同模态中处于相同位置)。
后续工作
可以通过以上这种模拟多模态数据的方式评估对角整合算法对不同模态之间的细胞类型对应性能,以进一步改进算法。
改进方式-部分先验知识和基准
利用部分共享特征
对于scRNA-seq和scATAC-seq这种线性基因组学技术,它们之间很容易找到共享的特征(基因)。
利用这部分共享特征作为基准,可以大程度解决以上问题。
上图为无先验知识的对角整合,可见在2个模态之间的绿色和橙色细胞类型对应出现错误;下图是同一算法在考虑了共享特征后进行对角整合的结果,对所有颜色的细胞类型均有正确的对应关系。
同时,其他值得研究的问题是:
- 如何用最少的共享特征达到有意义的整合
- 如何确定最小的共享特征集合
构建特征相关矩阵
对于基因表达和染色质结构,可能无法找到他们之间的共享特征。此时,可以构建这两个特征空间的相关矩阵,来表征一个模态中的特征可能与另一个模态的哪些特征相关。
整合共测序技术和对角整合方法是多组学数据统一融合的框架
现有的对同细胞进行多组学测序的技术提供的少量数据集可以作为参考数据集,便于对角整合算法的模型训练与性能评估。在工测序技术提供的标签下,使多组学数据利用共享特征进行统一融合成为可能。