单细胞注释之坑-通过AddModuleScore注释细胞

最新推荐文章于 2024-06-22 16:43:38 发布

木之如水

最新推荐文章于 2024-06-22 16:43:38 发布

阅读量5.5k

点赞数 7

分类专栏： R语言文章标签： r语言单细胞

本文链接：https://blog.csdn.net/weixin_43949246/article/details/126497773

版权

R语言专栏收录该内容

32 篇文章 32 订阅

订阅专栏

兜兜转转，小编做单细胞转眼又是半年过去了，单细胞注释真的是一到玄学，一查资料很多自动化单细胞注释的工具横空出世，可是小编试了很多很多，发现还是手动注释更加准确，但是手动如何注释呢？
这里我们需要先找到细胞的marker基因，这里以NKT细胞为例，我们知道NKT有三个经典的marker（CD45,CD3,CD56），我们单个marker注释看看
这里的sce就是我们前面使用seurat创建的对象

FeaturePlot(sce,features = c('PTPRC','CD3D', 'CD3E', 'CD3G', 'NCAM1'),
            pt.size = 0.1,reduction = 'tsne',ncol = 5)

在这里插入图片描述
从上面的图中可以看出，右上角为T细胞，NKT细胞在哪里呢，我们需要看一下交集的地方

同样是这几个marker，我们使用该包自带的AddModuleScore进行计算，同时绘制多个marker的TSNE图

NKT_gene_list <- list(c('PTPRC','CD3D', 'CD3E', 'CD3G', 'NCAM1'))
sce <- AddModuleScore(object = sce, features = NKT_gene_list, name = "cell")
FeaturePlot(object = sce, features = "cell1",reduction='tsne',
                    cols = c('grey','red'))+
  ggtitle('NKT cell \n CD45(PTPRC), CD3(CD3D, CD3E,CD3G), CD56(NCAM1)')

在这里插入图片描述
这里指定的NKT在右上角

看到这里突然不知道说啥了，小编查了一下AddModuleScore的原理，原来AddModuleScore是通过特定的方法通过这几个marker计算的评分，（其实就是这几个基因的平均表达值）对于Bulk RNA-seq的数据当然没有什么问题，但是对于单细胞来说，他是一个很大的稀疏矩阵，包含了大量的0，在取平均的时候，将高表达的细胞反而缩小了，低表达的细胞整体拉大了，加上每一个marker在细胞注释的时候占的权重不一样。
我们要确定NKT，就需要先看CD45是否表达（免疫细胞），再看CD3（T细胞），最后看CD56（NKT），但是通过AddModuleScore的方法认为这些marker的一样重要的，所以才会造成现在的情况。
换言之，除非能得到一种算法，就像流式手动圈门一样，从大类开始注释，直到小类结束，不然我们又该如何去衡量这个marker的权重呢？
玄学一般的单细胞注释，不一样的注释不一样的结果，我曾经使用garnett包进行分析，区分单个细胞，并进行注释（因为小编一直觉得不管怎么聚类，cluster都是杂的，不可能纯），可是结果总是差强人意。直到现在才明白，为什么garnett会失败，其实和AddModuleScore的一样的，还是那句话，marker权重不同，他们不知道哪个marker对于亚群权重更高，所以，面对这些只有一个方法，有交集的基因不要放，亚群之间一定要找独有的marker，但是这个又如何容易呢？大亚群可以，小亚群呢？先注释大亚群后注释小亚群吗？