上次讲到单因素方差分析:
卡方检验是用途很广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的适用条件:要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。
在生物信息学中,什么时候用到卡方检验?
例如:我们研究某个基因与患者临床的关系。基于基因的中位表达值将样本分成高低表达组,然后比较高低表达组和患者分期的关系;我们构建的临床风险模型,将风险评分分为高低风险,比较高低风险与不同病理学分期、组织学分级的关系等。
下面开始运行代码,数据准备如下:
我们比较一下年龄和患者生存状态的关系,首先将年龄变成二分类变量。
setwd("D:\\")
dir()
data <- read.csv("data.csv",header = T,sep = ",")
head(data)
data$Age <- ifelse(data$Age>60,">60","<=60")
head(data)
> head(data)
patient_id Age OS
1 Sample1 >60 0
2 Sample2 >60 0
3 Sample3 >60 0
4 Sample4 >60 0
5 Sample5 >60 0
6 Sample6 <=60 0
然后使用table函数将数据转换成配对四个表的格式,并传给data。
data <- table(data$Age,data$OS)
data
> data
0 1
<=60 19 17
>60 49 26
进行卡方检验:
chisq.test(data)
> chisq.test(data)
Pearson's Chi-squared test with Yates' continuity correction
data: data
X-squared = 1.13, df = 1, p-value = 0.2878
可以看到,P值没有什么意义。
说明大于60和小于60的患者生存和死亡没有明显差异。