(生物信息学)R语言与统计学入门(三)——卡方检验

上次讲到单因素方差分析:

(生物信息学)R语言与统计学入门(二)——单因素方差分析_李京弦的博客-CSDN博客上次说到t检验,是检验两组数据的均数差异,链接如下:(生物信息学)R语言与统计学入门(一)——t 检验_李京弦的博客-CSDN博客这次我们来介绍一下单因素方差分析。单因素方差分析:方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。简单地说,t检验比较的是两组均数,方差分析比较的就是三组。在生物信息学中常用于情况呢:比如临床分期,如下图:假设我们找到一个基...https://blog.csdn.net/weixin_46500027/article/details/123649603?spm=1001.2014.3001.5501这次讲配对四个表卡方检验:

卡方检验是用途很广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

卡方检验的适用条件:要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

在生物信息学中,什么时候用到卡方检验?

例如:我们研究某个基因与患者临床的关系。基于基因的中位表达值将样本分成高低表达组,然后比较高低表达组和患者分期的关系;我们构建的临床风险模型,将风险评分分为高低风险,比较高低风险与不同病理学分期、组织学分级的关系等。

下面开始运行代码,数据准备如下:

我们比较一下年龄和患者生存状态的关系,首先将年龄变成二分类变量。

setwd("D:\\")
dir()
data <- read.csv("data.csv",header = T,sep = ",")
head(data)
data$Age <- ifelse(data$Age>60,">60","<=60")
head(data)
> head(data)
  patient_id  Age OS
1    Sample1  >60  0
2    Sample2  >60  0
3    Sample3  >60  0
4    Sample4  >60  0
5    Sample5  >60  0
6    Sample6 <=60  0

然后使用table函数将数据转换成配对四个表的格式,并传给data。

data <- table(data$Age,data$OS)
data


> data
      
        0  1
  <=60 19 17
  >60  49 26

进行卡方检验:

chisq.test(data)



> chisq.test(data)

	Pearson's Chi-squared test with Yates' continuity correction

data:  data
X-squared = 1.13, df = 1, p-value = 0.2878

可以看到,P值没有什么意义。

说明大于60和小于60的患者生存和死亡没有明显差异。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

楷然教你学生信

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值