简介
批次效应(Batch effect)往往是是不同时间、不同操作者、不同试剂、不同仪器导致的实验误差,与研究中的生物或科学变量无关。批次效应对低维分子测量如 Western Blot 和 qPCR 影响较小,但对高通量测序数据的影响显著。其不利影响包括:可能扭曲生物学差异,在基因表达相关性分析如WGCNA中可能影响基因间的相关性等。批次效应的具体情形如:
- 肿瘤样本都在周一测序,正常组织样本都在周二测序
- 不同的测序子集由不同的技术人员负责
- 测序时使用了两批不同的试剂、芯片或仪器
- 数据挖掘时合并两个不同来源的数据集,如TCGA和GTEx的正常组织数据
归一化(Normalization)是一种数据分析技术,用于调整单个样本测量值的全局属性,以便能够更恰当地对所有样本进行比较。传统认为归一化可以去除批次效应,但由于批量效应违反了归一化方法的假设,使得归一并不能消除批量效应,甚至可能会加剧高通量测量中的技术伪影。
判断有无批次效应方法
1、查看样本总体分布
箱线图
小提琴图
密度曲线图
2、查看样本间的相关性
层次聚类树状图
- 若样本间按批次聚类,则说明有批次效应
PCA主成分分析
- 若样本间按批次聚集,则说明有批次效应
去除批次效应的方法
- 如果产生批次效应的批次已知,例如不同的数据集等,则使用 ComBat 函数去除批次效应
- 如果产生批次效应的批次未只,使用 SVA 去除批次效应
- SVA 直接从高通量数据估计批次效应的来源,从而纠正下游显着性分析,意味着不必提前知道重要的潜在批次变量