欢迎关注”生信修炼手册”!
在数据分析中,经常会看到进行batch effect校正的分析,那么batch effect到底是什么,在我们自己的数据中存不存在batch effect, 在做哪些分析之前需要需要进行batch effect的校正,带着这些问题,我们来看下发表在natrure reviews上的一篇描述batch effect的文献,链接如下
https://www.nature.com/articles/nrg2825
1. batch effect的定义
在该文章中,给出了batch effect的定义
Batch effects are sub-groups of measurements that have qualitatively different behaviour across conditions and are unrelated to the biological or scientific variables in a study.
关键词是sub groups,并且该sub group有已下两个特征
1. 在不同的条件下分布有差异
2. 与感兴趣的生物学条件不相关
举个例子,比如我们进行一个case/control实验设计,我们感兴趣的生物学问题是case/contorl因分组不同而导致的差异表达基因,而在具体的实验过程中,不同样本可能有不同的处理日期,比如dna提取的日期不同或者实验操作是由不同熟练度的实验员完整,当实验过程中的不同条件本身存在基因表达上的差异时,这些实验过程中的不同条件就是sub groups, 当我们不做任何处理,直接进行case/control 间的差异分析时,这个batch effect就会极大的影响差异分析的结果,使得我们得到错误的,不可重现的结论。
在该文章中提到,在基因表达的差异分析中,batch effect对实验结论影响非常大,如果不做处理,往往导致错误的实验结论
In gene expression studies, the greatest source o