时下的单细胞分析,都以大样本量著称,摆在面前的第一道难题,便是多样本的整合分析,随之带来的就是通常讲到的批次问题。而分析的目的,是要寻找真正的生物学差异,避免因为批次引发的错误判断,为了解决批次问题,目前已经有了很多的分析手段,其中有scanpy整合分析用到的bbknn,也有liger[1]整合分析用到的iNMF,而本篇中重点介绍的,就是目前最为常用的两种方法,Seurat本身自带的CCA与文献广泛运用的harmony。
批次效应的产生
批次效应(Batch effect)通常指的是实验指标检测中,来源关注的生物学处理效应之外的其他因素导致的样本结果的波动。而对于单细胞而言,主要有以下主要的影响因素:
(1)不同样本
(2)同一样本的生物学重复
(3)同一样本的技术重复
(4)同一样本在同一个实验室由同一团队在不同时间点处理
(5)不同建库策略,10X平台,Drop-seq,SMART2-seq
(6)不同测序平台,BGI/Illumina.
通常的状况下,单细胞的样本基本都使用10X平台,测序平台为Illumina,那么最为关注的批次因素,就是不同的样本。如果批次效应比较小还可以接受,如果批次效应很严重,就可能会和真实的生物学差异相混淆,让结果难以捉摸。因此需要辨别到底存在多大程度的批次效应,对真实的生物学样本会不会产生影响。批次效应的影响主要体现在以下几个方面:<