10X单细胞（10X空间转录组）数据分析之聚类评估框架（SCCAF）-CSDN博客

本文链接：https://blog.csdn.net/weixin_53637133/article/details/138409910

作者提出SCCAF，一种基于Python的方法，用于单细胞RNA测序数据中自动检测潜在细胞类型。通过自映射和聚类合并策略，SCCAF克服了聚类数量未知、过度聚类和欠聚类等问题。文章展示了SCCAF在真实数据集上的应用效果和可扩展性，强调了其在大规模单细胞数据分析中的便利性。

摘要由CSDN通过智能技术生成

hello，国庆本来是该好好玩的，但是天天下雨，没办法，学习一下吧。今天给大家带来的是一些基础的认知，如果评价我们的聚类，我们了解一下，不必深入研究。

文章信息

文献标题：Putative cell type discovery from single-cell gene expression data 发表时间：2020.05.18 发表杂志：Nature Methods（IF=30.822）原文链接：https://www.nature.com/articles/s41592-020-0825-9

摘要

作者提出了单细胞聚类评估框架（Single-Cell Clustering Assessment Framework, SCCAF），用于从单细胞 RNA 测序（scRNA-seq）数据中自动鉴别可能存在的细胞类型。通过迭代地对给定的细胞集合应用机器学习方法，该方法能同时鉴定不同的细胞亚群及其特征基因，这些差异表达的特征基因能有效区分目标亚群和其他细胞。作者以经过专业注释的公共数据集为评估基准，发现 SCCAF 能精确地自动识别出 ground truth 的细胞分群模式。

引言

单细胞测序的主要用途之一是识别样本中包含的细胞类型，也即目前常用的诸如 Seurat 和 Scanpy 等分析流程，基于（无）监督聚类完成细胞分群，并结合已知的 marker 基因进行分群注释。然而，这一分析过程常常伴随以下问题：

对一个新的数据集来说，其实际包含的细胞类型数量是未知的。尽管有工具可用于评估数据中可能的聚类数量（SC3）或基于数据空间距离进行聚类合并（DendroSplit），它们都无法保障聚类结果反映的是真实生物学规律；
面对大样本数据集，纯手动注释耗时费力；
尽管有多种基于参考数据集的自动化注释工具（SingleR、CHETAH、ACTINN、scClassify 等），它们通常难以发现新的细胞类型。

基于上述问题，作者提出了一种基于 python 的自动化方法——SCCAF，用以辅助发现新的、尚未被注释的细胞类型。

SCCAF 原理：基于自映射（Self-projection）的方式

对给定的 scRNA-seq 表达矩阵，SCCAF 包含以下步骤：

初步聚类：基于（高可变）基因或主成分空间，利用诸如 k-means、louvain、leiden 等聚类算法，得到实际聚类（actual clusters）的结果。
自映射：将每个聚类的细胞随机分割成训练集和测试集，训练一个分类器作用于测试集，得到预测聚类（predicted clusters）。对于给定的聚类，理想的分类器应该能恰好准确地从测试集中识别出来自相同聚类的细胞。如果发生了“过度聚类”（over-clustering），分类器就无法将这些衍生出的聚类区分开。如果发生“聚类不足”（under-clustering），由于该结果代表了混合的细胞类型，分类器的表现也应该变差。
混淆矩阵：评估 predicted clusters 和 actual clusters 的一致性可以得到混淆矩阵（confusion matrix）。如上图 j，聚类 B 的自映射一致性很好，而 A、C 均互相存在错误分类的情况。
混淆矩阵归一化：计算错误分类和正确分类的细胞比例来归一化不同大小的聚类。
混淆矩阵离散化：基于整个数据中的最大混淆率
聚类合并：假设发生了 over-clustering，离散化的混淆矩阵可以代表聚类联结图（cluster connection graph），直观理解就是聚类之间的相似性，相连的聚类被合并。
迭代上述过程，整体的自映射准确度将逐渐提高，直到达到阈值。
关于分类器：默认使用 logistic regression 模型，其他包括支持向量机（support vector machine）、决策树（decision tree）、随机森林（random forest）和贝叶斯模型（Gaussian naive Bayes）