上次说到t检验,是检验两组数据的均数差异,链接如下:
(生物信息学)R语言与统计学入门(一)——t 检验_李京弦的博客-CSDN博客
这次我们来介绍一下单因素方差分析。
单因素方差分析: 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。
简单地说,t检验比较的是两组均数,方差分析比较的就是三组。
在生物信息学中常用于情况呢:比如临床分期,如下图:
假设我们找到一个基因,想看看这个基因到底好不好,有没有研究的价值,那就需要将它和临床挂钩。在某个癌症中,分期越高,某个基因的表达量越高,说明这个基因很有可能促进肿瘤进展。那么他就有研究意义。如上图,随着分期增高,此基因的表达量增高,且P值有意义。
那么此时,就可以用单因素方差分析,比较三组及以上的均数差异,下面来看单因素方差分析如何实现。
首先准备如下数据:
这是TCGA数据库某个基因的表达量,以及临床分期,我们将数据提前存成CSV格式。
想要知道该基因对临床分期是否有影响,我们执行以下代码:
setwd("D:\\")
data <- read.csv("Stage.csv",header = T,sep = ",")
aov = aov(data$RBCK1~factor(data$Stage)) ## aov 单因素方差分析的函数
summary(aov)
可以看到P值没有意义,说明在不同的分期中,RBCK1这个基因的表达量并没有发生改变。
我们还可用那个另一个公式:
oneway.test(data$RBCK1~data$Stage,data)
##
## One-way analysis of means (not assuming equal variances)
## data: data$RBCK1 and data$Stage
## F = 0.33068, num df = 3.000, denom df = 53.886, p-value = 0.8032
也能得到相同的结果。
遇见这种情况,就换基因吧。