用limma对芯片数据做差异分析

33 篇文章 9 订阅

用limma对芯片数据做差异分析
用limma对芯片数据做差异分析
jmzeng
2016年3月12日
用基因芯片的手段来探针基因表达量的技术虽然已经在逐步被RNA-seq技术取代,但毕竟经历了十多年的发展了,在GEO或arrayexpress数据库里面存储的全球研究者数据都已经超过了50PB了!实在是很可观,里面还是有非常多等待挖掘的地方!

现在我们要讲的就是基因表达芯片数据的一种分析方式,差异分析,主角就是limma这个package,虽然一直都有各种差异分析统计方法提出来,但是limma包绝对是其中的佼佼者,我们也不多说废话了,直接上教程!

使用这个包需要三个数据:

表达矩阵

分组矩阵

差异比较矩阵

而且总共也只有三个步骤:

lmFit

eBayes

topTable

首先是表达矩阵,这个非常简单了,你可以自己从芯片原始的cel文件开始用affy包读取,然后用rma或者mas5函数做归一化处理,最后得到表达矩阵。也可以直接下载表达矩阵然后用read.table等函数读取到R里面。或者直接下载一个含有表达矩阵的数据对象!

suppressPackageStartupMessages(library(CLL))
data(sCLLex)
exprSet=exprs(sCLLex)   ##sCLLex是依赖于CLL这个package的一个对象
samples=sampleNames(sCLLex)
pdata=pData(sCLLex)
group_list=as.character(pdata[,2])
dim(exprSet)
## [1] 12625    22
exprSet[1:5,1:5]
##           CLL11.CEL CLL12.CEL CLL13.CEL CLL14.CEL CLL15.CEL
## 1000_at    5.743132  6.219412  5.523328  5.340477  5.229904
## 1001_at    2.285143  2.291229  2.287986  2.295313  2.662170
## 1002_f_at  3.309294  3.318466  3.354423  3.327130  3.365113
## 1003_s_at  1.085264  1.117288  1.084010  1.103217  1.074243
## 1004_at    7.544884  7.671801  7.474025  7.152482  6.902932
group_list  ##这个也是存储在sCLLex对象里面的信息,描述了样本的状态,需要根据它来进行样本分类
##  [1] "progres." "stable"   "progres." "progres." "progres." "progres."
##  [7] "stable"   "stable"   "progres." "stable"   "progres." "stable"  
## [13] "progres." "stable"   "stable"   "progres." "progres." "progres."
## [19] "progres." "progres." "progres." "stable"

可以看到我们得到了表达矩阵exprSet,它列是各个样本,行是每个探针ID,一个纯粹的表达矩阵,必须是数字型的! 我们可以简单做该表达矩阵做一个QC检测

par(cex = 0.7)
n.sample=ncol(exprSet)
if(n.sample>40) par(cex = 0.5)
cols <- rainbow(n.sample*1.2)
boxplot(exprSet, col = cols,main="expression value",las=2)

在这里插入图片描述

通过这些boxplot可以看到各个芯片直接数据还算整齐,可以进行差异比较

然后我们制作分组矩阵

suppressMessages(library(limma))
## Warning: package 'limma' was built under R version 3.1.1
design <- model.matrix(~0+factor(group_list))
colnames(design)=levels(factor(group_list))
rownames(design)=colnames(exprSet)
design
##           progres. stable
## CLL11.CEL        1      0
## CLL12.CEL        0      1
## CLL13.CEL        1      0
## CLL14.CEL        1      0
## CLL15.CEL        1      0
## CLL16.CEL        1      0
## CLL17.CEL        0      1
## CLL18.CEL        0      1
## CLL19.CEL        1      0
## CLL20.CEL        0      1
## CLL21.CEL        1      0
## CLL22.CEL        0      1
## CLL23.CEL        1      0
## CLL24.CEL        0      1
## CLL2.CEL         0      1
## CLL3.CEL         1      0
## CLL4.CEL         1      0
## CLL5.CEL         1      0
## CLL6.CEL         1      0
## CLL7.CEL         1      0
## CLL8.CEL         1      0
## CLL9.CEL         0      1
## attr(,"assign")
## [1] 1 1
## attr(,"contrasts")
## attr(,"contrasts")$`factor(group_list)`
## [1] "contr.treatment"

这个design就是我们制作好的分组矩阵,需要根据我们下载的芯片数据的实验设计方案来,此处例子是CLL疾病的探究,22个样本分成了两组,你们自己的数据只需要按照同样的方法制作即可! 最后一个差异比较矩阵,此处不能省略,即使这里的数据只分成了两组,所以肯定是它们两组直接进行比较啦!如果分成多于两个组,那么就需要制作更复杂的差异比较矩阵。

contrast.matrix<-makeContrasts(paste0(unique(group_list),collapse = "-"),levels = design)
contrast.matrix ##这个矩阵声明,我们要把progres.组跟stable进行差异分析比较
##           Contrasts
## Levels     progres.-stable
##   progres.               1
##   stable                -1

那么我们已经制作好了必要的输入数据,下面开始讲如何使用limma这个包来进行差异分析了!

##step1
fit <- lmFit(exprSet,design)
##step2
fit2 <- contrasts.fit(fit, contrast.matrix) ##这一步很重要,大家可以自行看看效果
fit2 <- eBayes(fit2)  ## default no trend !!!
##eBayes() with trend=TRUE
##step3
tempOutput = topTable(fit2, coef=1, n=Inf)
nrDEG = na.omit(tempOutput) 
#write.csv(nrDEG2,"limma_notrend.results.csv",quote = F)
head(nrDEG)
##               logFC  AveExpr         t      P.Value  adj.P.Val        B
## 39400_at -1.0284628 5.620700 -5.835799 8.340576e-06 0.03344118 3.233915
## 36131_at  0.9888221 9.954273  5.771526 9.667514e-06 0.03344118 3.116707
## 33791_at  1.8301554 6.950685  5.736161 1.048765e-05 0.03344118 3.051940
## 1303_at  -1.3835699 4.463438 -5.731733 1.059523e-05 0.03344118 3.043816
## 36122_at  0.7801404 7.259612  5.141064 4.205709e-05 0.10619415 1.934581
## 36939_at  2.5471980 6.915045  5.038301 5.362353e-05 0.11283285 1.736846

可以看到就三个步骤!最后输出的nrDEG就是我们的差异分析结果! 至于结果该如何解释,大家可以仔细阅读说明书啦!
致敬:http://www.bio-info-trainee.com/bioconductor_China/software/limma.html

  • 2
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
差异表达分析是一种常用的方法,用于比较不同条件下基因表达水平的变化。GEOquery和limmaR语言中广泛使用的两个包,可用于处理和分析芯片数据差异表达。下面是使用GEOquery和limma进行差异表达分析的步骤: 1. 下载和导入芯片数据 使用GEOquery包中的getGEO函数下载芯片数据并导入到R中。例如,如果您要下载GSE12345数据集,可以使用以下代码: ``` library(GEOquery) gset <- getGEO("GSE12345") ``` 2. 数据质量控制 在进行差异表达分析之前,需要对数据进行质量控制。使用GEOquery包中的summary函数和plotPCA函数可以对芯片数据进行基本的质量控制。例如,可以使用以下代码绘制PCA图: ``` library(limma) library(GEOquery) gset <- getGEO("GSE12345") edata <- exprs(gset[[1]]) edata <- t(edata) edata <- na.omit(edata) fit <- prcomp(edata) plotPCA(fit) ``` 3. 数据预处理 对芯片数据进行归一化和标准化处理,以消除不同芯片之间的差异,并确保数据符合正态分布。常用的预处理方法包括RMA、GCRMA、MAS5等。使用limma包中的normalizeBetweenArrays函数可以对芯片数据进行预处理。例如,可以使用以下代码对芯片数据进行RMA预处理: ``` library(limma) library(GEOquery) gset <- getGEO("GSE12345") edata <- exprs(gset[[1]]) edata <- t(edata) edata <- na.omit(edata) edata <- backgroundCorrect.RMA(edata) edata <- normalize.quantiles.RMA(edata) edata <- log2(edata) ``` 4. 差异表达分析 使用limma包中的lmFit函数和eBayes函数可以进行差异表达分析。lmFit函数用于拟合线性模型,eBayes函数用于对差异表达结果进行统计显著性检验。例如,可以使用以下代码进行差异表达分析: ``` library(limma) library(GEOquery) gset <- getGEO("GSE12345") edata <- exprs(gset[[1]]) edata <- t(edata) edata <- na.omit(edata) edata <- backgroundCorrect.RMA(edata) edata <- normalize.quantiles.RMA(edata) edata <- log2(edata) factors <- c(0,0,0,1,1,1) design <- model.matrix(~factors) fit <- lmFit(edata, design) fit <- eBayes(fit) results <- topTable(fit, adjust="BH", sort.by="P", n=1000) ``` 上述代码中,factors表示芯片数据中不同样本的分组信息,design表示设计矩阵,fit表示拟合的线性模型,results表示差异表达结果。 5. 结果分析 根据差异表达结果,可以进行进一步的功能分析、通路分析等。常用的工具包括ClusterProfiler、GOstats、KEGGprofile等。例如,可以使用以下代码进行GO分析: ``` library(ClusterProfiler) gset <- getGEO("GSE12345") edata <- exprs(gset[[1]]) edata <- t(edata) edata <- na.omit(edata) edata <- backgroundCorrect.RMA(edata) edata <- normalize.quantiles.RMA(edata) edata <- log2(edata) factors <- c(0,0,0,1,1,1) design <- model.matrix(~factors) fit <- lmFit(edata, design) fit <- eBayes(fit) results <- topTable(fit, adjust="BH", sort.by="P", n=1000) genes <- rownames(results) geneList <- names(genes) geneList <- names(genes)[abs(results$logFC) > 1 & results$adj.P.Val < 0.05] ego <- enrichGO(geneList, OrgDb="org.Hs.eg.db", ont="BP") barplot(ego) ``` 上述代码中,geneList表示差异表达基因列表,ego表示进行GO分析所得到的富集结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮肤小白生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值