R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立(自定义构建列联表仿真数)
目录
R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立
R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立
假设检验
假设检验使用统计学中的概念来确定给定假设有效的概率。通过假设检验,我们可以通过分析样本统计量来推断样本对应的总体的参数。
统计假设检验可以分为以下两类:
无效假设(Null Hypothesis):假设检验是为了检验关于更大人群(总体,population)的主张或假设的有效性而进行的。零假设检验用H0表示。
备则假设(Alternative Hypothesis):如果无效假设是谬误的,一个备则假设将被认为是有效的。备则假设检验用H1或Ha表示。
让我们以抛硬币为例。我们想断定一枚硬币是不是无偏的。由于零假设是指一个事件的自然状态,因此,根据零假设,如果一枚硬币被抛几次,那么正面和反面出现的次数将是相等的。另一方面,备则假设否定了零假设,指出正面和方面的出现在数量上会有显著的差异。
统计学家使用假设检验来正式检查假设是否被接受或拒绝。假设检验以下列方式进行:陈述假设、制定分析计划、分析样本数据、解释结果;
假设检验最终使用p值来衡量证据的强弱程度,或者换句话说,关于总体(population)的实际数据是什么。p值的范围在0到1之间。可以这样解释:
一个小的p值(通常≤0.05)表明有强有力的证据反对零假设,所以你拒绝它。
较大的p值(>0.05)表明反对无效假设的证据很微弱弱,所以你不能拒绝它。
非常接近临界值(0.05)的P值被认为是边缘的,可以走任何一条路。
通常来讲,假设检验从关于总体参数的假设(Hypothesis)或断言(Assertation)开始。例如,我们可能有兴趣验证飞利浦的号称,他们的某款LED灯泡的平均寿命为10年,我们可以采集数据通过假设检验来判别一切是毫无根据的夸大吹嘘还是实事求是。
假设检验的应用
当我们想比较样本均值和总体均值时。例如,我们想确定X品牌灯泡的平均寿命是否为10年。在这种情况下,当你想检查样本均值是否代表总体均值时,你应该运行单样本t检验(One Sample t-test)。
当我们要比较两个自变量的均值时。其中之一可以是类别变量。在这种情况下,我们运行双样本t检验(Two sample t-test)。
当我们想比较实验或治疗的前后效果时。然后,在这种情况下,我们运行配对的t检验,或者成对的t检验(Paired t-test)。
当我们要比较两个以上的自变量(independent variables)时;在这种情况下,我们运行方差分析(ANOVA)测试
在以上所有的应用中,我们都假设变量是数值的(numeric)。然而,当你想比较两个类别变量(categorical variables)时,我们运行卡方检验(Chi-square test)。
仿真数据
x <- c(98,67,13,18,38,41,8,12,289,262,57,30)
dim(x)<- c(4,3)
R语言卡方独立性检验、使用chisq.test函数对列联表进行卡方检验、检验两个分类变量是否独立
> x
[,1] [,2] [,3]
[1,] 98 38 289
[2,] 67 41 262
[3,] 13 8 57
[4,] 18 12 30
>
函数 chisq.test( )的参数 correct 用于设置是否进行连续性校正,默认为 TRUE,故在输出中有说明“Pearson's Chi-squared test with Yates' continuity correction”。对于频数表中每个单元格的期望频数都比较大(大于5)的大样本,可以将这个参数设为 FALSE,即不进行连续性校正。
p值小于0.05,存在显著的关联( p < 0.05)、拒绝原假设、接受备则假设;
# 卡方独立性检验
x <- c(98,67,13,18,38,41,8,12,289,262,57,30)
dim(x)<- c(4,3)
chisq.test(x)
> x <- c(98,67,13,18,38,41,8,12,289,262,57,30)
> dim(x)<- c(4,3)
> chisq.test(x)
Pearson's Chi-squared test
data: x
X-squared = 15.073, df = 6, p-value = 0.01969
>
参考:R