热点综述 | 跨模态单细胞分析的最佳实践

跨模态的单细胞数据的可用性越来越高,推动了新的计算方法的发展,以帮助科研人员获得生物学见解。近日《Nature Reviews Genetics 》发表了一篇综述文章,总结了单模态和多模态单细胞数据分析的独立基准研究,为最常见分析步骤提供全面的最佳实践工作方案。

跨模态单细胞分析

转录组

scRNA-seq测量每个细胞的mRNA 分子丰度。提取的生物组织样本构成了单细胞实验的输入。组织在单细胞解离过程中被消化,然后进行单细胞分离以分别分析每个细胞的 mRNA。 

scRNA-seq单模态分析步骤概述

从原始计数矩阵到高质量的细胞数据

过滤低质量细胞和噪声校正:SoupX 等流行方法根据数据集中其他“空”液滴和细胞簇的表达谱估计细胞特异性污染分数;CellBender 将环境 RNA 的去除制定为无监督贝叶斯模型;scDblFinder在二重检测精度和计算效率方面优于其他方法。当低质量细胞和双细胞聚集在一起时,通常需要在下游分析期间重新评估所选的质量控制策略。因此,我们建议最初设置允许阈值,并可能在(重新)分析期间根据需要移除更多细胞。

归一化和方差稳定:最近的一个基准测试比较了基于KNN图与ground truth重叠的单细胞数据的22个转换,具有大小因子s的移位对数变换log(y/s+1)表现良好,但不应将每百万计数用作输入;表现类似良好的一种方法是皮尔逊残差的分析近似,它拟合以排序深度为协变量的广义线性模型,以获得变换的计数矩阵。归一化方法应该在后续分析任务的基础上仔细选择。移位对数被证明能更好地稳定方差,用于后续的降维,Scran在批量校正任务中表现良好,分析Pearson残差更适合选择生物可变基因和鉴定稀有细胞身份

消除混杂的变异来源:一项基准比较了14个指标的16种集成方法,这些方法基于批量校正和生物方差守恒。线性嵌入模型,如正则相关分析和Harmony,在具有不同批处理结构的更简单集成任务上表现良好。根据集成任务的复杂性,如图谱集成,深度学习方法(如scANVI、scVIscGen)以及线性嵌入模型(如Scanorama)表现最好,而对于不太复杂的集成任务,Harmony是首选方法。scIB包可用于使用上述基准的评估指标来评估集成。除了计数采样效应外,scRNA-seq数据可能包含生物混杂因素(如细胞周期效应),Tricycle被证明对具有高细胞类型异质性的数据集表现良好。

选择信息特征和降维:在不影响小亚群可识别性的情况下,特征选择方法应理想地选择解释数据集中生物变异的基因,方法是优先考虑亚群之间而不是一个亚群内的变异基因。Deviance在识别亚群中具有高变异性的基因方面表现良好,从而在选择信息基因方面也表现良好。在特征选择之后,可以通过主成分分析(PCA)等降维算法进一步降低数据集的维数。

从聚类到细胞识别

单细胞聚类:识别细胞群体的第一步是将细胞聚类成具有相似表达谱的组,以解释数据中的异质性。独立的基准测试表明,通过Louvain算法基于图模块化优化的聚类检测最适合于聚类识别。Louvain的继任者Leiden通过产生有保证的连接细胞群来规避连接不良的问题,并且在计算上更高效。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值