使用sva包处理批次效应

本文介绍了如何使用sva包处理高维数据的批次效应,包括基因芯片、RNA-seq等数据类型。sva提供了ComBat和sva函数,前者用于已知批次效应的直接校正,后者则能识别并校正未知批次效应。在应用这些方法前,数据需先进行归一化和缺失值处理。此外,还需要提供null model和full model设计矩阵。这两个函数为后续的表达量分析和差异分析提供基础。
摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

SVA适用于高维数据的批次效应校正,支持以下数据

1. 基因芯片

2. RNA-seq

3. 甲基化表达谱

4. 其他表达量数据

提供了两种方法来处理不同的批次效应

1. 直接校正已知的batch effect, 使用ComBat 函数

2. 识别未知的batch effect,并校正,使用sva函数

需要注意的是,在校正批次效应之前,表达量数据必须经过归一化操作,而且去除了缺失的基因,比如在80%的样本中没有表达量的基因。

除了表达量矩阵外,还要求提供以下两种设计矩阵model matrix

1. null model,只包含adjustment variable, 即需要校正批次效应的变量

2. full  model,  包含了adjustment variable + interest variable,包含所有的变量

两个函数的具体用法如下

1. ComBat

ComBat函数提供了基于经验贝叶斯框架的校正模型,具体的原理可以查看对应的文章

https://academic.oup.com/biostatistics/article/8/1/118/252073?login=false

对于该函数的使用,完整代码如下

> library(sva)
> library(bladderbatch)
> data(bladderdata)
> pheno = pData(bladderEset)
> edata = exprs(bladderEset)
> batch = pheno$batch
# 样本的metadata
> head(pheno)
             sample outcome batch cancer
GSM71019.CEL      1  Normal     3 Normal
GSM71020.CEL      2  Normal     2 Normal
GSM71021.CEL      3  Normal     2 Normal
GSM71022.CEL      4  Normal     3 Normal
GSM71023.CEL      5  Normal     3 Normal
GSM71024.CEL      6  Normal    
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值