R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立(自定义构建列联表仿真数)

statistics.insight

已于 2022-07-12 10:49:08 修改

阅读量3.9k

点赞数 9

分类专栏： R语言入门课文章标签：机器学习人工智能数据挖掘数据分析 r语言

于 2022-04-26 00:06:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57242009/article/details/124408073

版权

R语言入门课专栏收录该内容

2650 篇文章 1221 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用R语言的chisq.test函数进行卡方独立性检验，通过构建列联表和仿真数据，检验两个分类变量之间的独立性。文章详细阐述了假设检验的概念，包括无效假设、备则假设以及p值的解释，并讨论了卡方检验在比较类别变量时的应用。

摘要由CSDN通过智能技术生成

R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立(自定义构建列联表仿真数)

目录

R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立

假设检验的应用

R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立

假设检验

假设检验使用统计学中的概念来确定给定假设有效的概率。通过假设检验，我们可以通过分析样本统计量来推断样本对应的总体的参数。

统计假设检验可以分为以下两类：

无效假设（Null Hypothesis）：假设检验是为了检验关于更大人群（总体，population）的主张或假设的有效性而进行的。零假设检验用H0表示。

备则假设（Alternative Hypothesis）：如果无效假设是谬误的，一个备则假设将被认为是有效的。备则假设检验用H1或Ha表示。

让我们以抛硬币为例。我们想断定一枚硬币是不是无偏的。由于零假设是指一个事件的自然状态，因此，根据零假设，如果一枚硬币被抛几次，那么正面和反面出现的次数将是相等的。另一方面，备则假设否定了零假设，指出正面和方面的出现在数量上会有显著的差异。

统计学家使用假设检验来正式检查假设是否被接受或拒绝。假设检验以下列方式进行：陈述假设、制定分析计划、分析样本数据、解释结果；

假设检验最终使用p值来衡量证据的强弱程度，或者换句话说，关于总体（population）的实际数据是什么。p值的范围在0到1之间。可以这样解释：

一个小的p值（通常≤0.05)表明有强有力的证据反对零假设，所以你拒绝它。

较大的p值(>0.05)表明反对无效假设的证据很微弱弱，所以你不能拒绝它。

非常接近临界值（0.05）的P值被认为是边缘的，可以走任何一条路。

通常来讲，假设检验从关于总体参数的假设（Hypothesis）或断言（Assertation）开始。例如，我们可能有兴趣验证飞利浦的号称，他们的某款LED灯泡的平均寿命为10年，我们可以采集数据通过假设检验来判别一切是毫无根据的夸大吹嘘还是实事求是。

假设检验的应用

当我们想比较样本均值和总体均值时。例如，我们想确定X品牌灯泡的平均寿命是否为10年。在这种情况下，当你想检查样本均值是否代表总体均值时，你应该运行单样本t检验（One Sample t-test）。

当我们要比较两个自变量的均值时。其中之一可以是类别变量。在这种情况下，我们运行双样本t检验（Two sample t-test）。

当我们想比较实验或治疗的前后效果时。然后，在这种情况下，我们运行配对的t检验，或者成对的t检验（Paired t-test）。

当我们要比较两个以上的自变量（independent variables）时；在这种情况下，我们运行方差分析（ANOVA）测试

在以上所有的应用中，我们都假设变量是数值的（numeric）。然而，当你想比较两个类别变量（categorical variables）时，我们运行卡方检验（Chi-square test）。

仿真数据

x <- c(98,67,13,18,38,41,8,12,289,262,57,30)
dim(x)<- c(4,3)

R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立

> x
[,1] [,2] [,3]
[1,] 98 38 289
[2,] 67 41 262
[3,] 13 8 57
[4,] 18 12 30
>

函数 chisq.test( )的参数 correct 用于设置是否进行连续性校正，默认为 TRUE，故在输出中有说明“Pearson's Chi-squared test with Yates' continuity correction”。对于频数表中每个单元格的期望频数都比较大（大于5）的大样本，可以将这个参数设为 FALSE，即不进行连续性校正。

p值小于0.05，存在显著的关联（ p < 0.05）、拒绝原假设、接受备则假设；

# 卡方独立性检验
x <- c(98,67,13,18,38,41,8,12,289,262,57,30)
dim(x)<- c(4,3)
chisq.test(x)

> x <- c(98,67,13,18,38,41,8,12,289,262,57,30)
> dim(x)<- c(4,3)
> chisq.test(x)

Pearson's Chi-squared test

data: x
X-squared = 15.073, df = 6, p-value = 0.01969

>

参考：R

statistics.insight

关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

statistics.insight 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。