单细胞基础分析之多样本整合篇

作者,追风少年i
时下的单细胞分析,都以大样本量著称,摆在面前的第一道难题,便是多样本的整合分析,随之带来的就是通常讲到的批次问题。而分析的目的,是要寻找真正的生物学差异,避免因为批次引发的错误判断,为了解决批次问题,目前已经有了很多的分析手段,其中有scanpy整合分析用到的bbknn,也有liger[1]整合分析用到的iNMF,而本篇中重点介绍的,就是目前最为常用的两种方法,Seurat本身自带的CCA与文献广泛运用的harmony[2]。
批次效应的产生

批次效应(Batch effect)通常指的是实验指标检测中,来源关注的生物学处理效应之外的其他因素导致的样本结果的波动。而对于单细胞而言,主要有以下主要的影响因素:

(1)不同样本

(2)同一样本的生物学重复

(3)同一样本的技术重复

(4)同一样本在同一个实验室由同一团队在不同时间点处理

(5)不同建库策略,10X平台,Drop-seq,SMART2-seq

(6)不同测序平台,BGI/Illumina.

通常的状况下,单细胞的样本基本都使用10X平台,测序平台为Illumina,那么最为关注的批次因素,就是不同的样本。如果批次效应比较小还可以接受,如果批次效应很严重,就可能会和真实的生物学差异相混淆,让结果难以捉摸。因此需要辨别到底存在多大程度的批次效应,对真实的生物学样本会不会产生影响。批次效应的影响主要体现在以下几个方面:

(1)批次效应与样本处理条件的因素部分重叠,那么批次效应会抵消一部分生物学差异,造成信息丢失。

(2)批次效应与样本处理条件的因素效应相同,则会加大样本之间的差异,最终难以区分差异是由于实验处理导致还是批次效应导致。

批次效应对于单细胞数据的影响主要是基因表达的变化对定量的影响。其次就是导致本该聚类在一起的细胞因为批次效应被分为不同的簇,影响了细胞亚群鉴定的准确性,以及下游的所有分析。而最理想的处理结果,如下图所示:

图1 批次效应处理效果示意图

即本该聚类在一起的细胞仍然保持聚类关系,不同的细胞群在去除批次后仍然各自分开。

批次效应的评估

对于批次效应的评估,最为简单的办法就是水平重复样本之间的整合效应。因为水平重复的样本信息整合后应当保持一致,每个簇包含比例大致相同的两个样本的细胞,如果存在显著的差异,那么可以肯定是批次效应带来的。

当然,更多的情况下,样本信息包括处理与非处理,那么合理的情况下,样本之间应当存在部分重叠,如果样本间绝大部分区分开的情况下,如下图,可以判断为是批次效应。

图2 批次效应tSNE示意图

批次效应的规避
关于批次效应最根本的规避办法,就是尽可能一次收集所有样本,一次做完(但实际情况往往不允许)。最近单细胞推出了混样技术,使用混样方式一次性建库测序可以减少批次效应(与实际情况也有出入)。所以目前最为广泛的且最实际的解决方法,就是运用生信的手段来矫正批次效应的影响。
典型相关分析(Canonical Correlatio
  • 26
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值