热点综述 | 跨模态单细胞分析的最佳实践

最新推荐文章于 2024-06-17 09:20:46 发布

wen05054105

最新推荐文章于 2024-06-17 09:20:46 发布

阅读量637

点赞数

分类专栏：空间转录组文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/wen05054105/article/details/130323726

版权

本文综述了跨模态单细胞分析的最新进展，包括scRNA-seq的质量控制、归一化、聚类、细胞类型注释等方面，以及scATAC-seq和染色质可及性分析。文章强调了最佳实践方法在减少变异源、提高数据解释能力中的关键作用，并探讨了与转录组学、表面蛋白表达和空间转录组学的联合分析。

摘要由CSDN通过智能技术生成

跨模态的单细胞数据的可用性越来越高，推动了新的计算方法的发展，以帮助科研人员获得生物学见解。近日《Nature Reviews Genetics 》发表了一篇综述文章，总结了单模态和多模态单细胞数据分析的独立基准研究，为最常见分析步骤提供全面的最佳实践工作方案。

跨模态单细胞分析

转录组

scRNA-seq测量每个细胞的mRNA 分子丰度。提取的生物组织样本构成了单细胞实验的输入。组织在单细胞解离过程中被消化，然后进行单细胞分离以分别分析每个细胞的 mRNA。

scRNA-seq单模态分析步骤概述

从原始计数矩阵到高质量的细胞数据

过滤低质量细胞和噪声校正：SoupX 等流行方法根据数据集中其他“空”液滴和细胞簇的表达谱估计细胞特异性污染分数；CellBender 将环境 RNA 的去除制定为无监督贝叶斯模型；scDblFinder在二重检测精度和计算效率方面优于其他方法。当低质量细胞和双细胞聚集在一起时，通常需要在下游分析期间重新评估所选的质量控制策略。因此，我们建议最初设置允许阈值，并可能在（重新）分析期间根据需要移除更多细胞。

归一化和方差稳定：最近的一个基准测试比较了基于KNN图与ground truth重叠的单细胞数据的22个转换，具有大小因子s的移位对数变换log（y/s+1）表现良好，但不应将每百万计数用作输入；表现类似良好的一种方法是皮尔逊残差的分析近似，它拟合以排序深度为协变量的广义线性模型，以获得变换的计数矩阵。归一化方法应该在后续分析任务的基础上仔细选择。移位对数被证明能更好地稳定方差，用于后续的降维，Scran在批量校正任务中表现良好，分析Pearson残差更适合选择生物可变基因和鉴定稀有细胞身份。

消除混杂的变异来源：一项基准比较了14个指标的16种集成方法，这些方法基于批量校正和生物方差守恒。线性嵌入模型，如正则相关分析和Harmony，在具有不同批处理结构的更简单集成任务上表现良好。根据集成任务的复杂性，如图谱集成，深度学习方法（如scANVI、scVI和scGen）以及线性嵌入模型（如Scanorama）表现最好，而对于不太复杂的集成任务，Harmony是首选方法。scIB包可用于使用上述基准的评估指标来评估集成。除了计数采样效应外，scRNA-seq数据可能包含生物混杂因素（如细胞周期效应），Tricycle被证明对具有高细胞类型异质性的数据集表现良好。

选择信息特征和降维：在不影响小亚群可识别性的情况下，特征选择方法应理想地选择解释数据集中生物变异的基因，方法是优先考虑亚群之间而不是一个亚群内的变异基因。Deviance在识别亚群中具有高变异性的基因方面表现良好，从而在选择信息基因方面也表现良好。在特征选择之后，可以通过主成分分析（PCA）等降维算法进一步降低数据集的维数。

从聚类到细胞识别

单细胞聚类：识别细胞群体的第一步是将细胞聚类成具有相似表达谱的组，以解释数据中的异质性。独立的基准测试表明，通过Louvain算法基于图模块化优化的聚类检测最适合于聚类识别。Louvain的继任者Leiden通过产生有保证的连接细胞群来规避连接不良的问题，并且在计算上更高效。

细