数据分析（2）——假设检验的详细原理步骤

最新推荐文章于 2024-05-18 00:05:53 发布

蜻蜓队长TTT

最新推荐文章于 2024-05-18 00:05:53 发布

阅读量1.3w

点赞数 6

文章标签：统计学数据分析

本文链接：https://blog.csdn.net/weixin_44880916/article/details/114818202

版权

本文深入讲解假设检验的基础概念，包括显著性水平、置信度、p值等，并介绍z检验、t检验的具体应用，以及假设检验过程中可能出现的第一类错误和第二类错误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.假设检验及其相关概念的定义

1.1 什么是假设检验

在统计学中，想要证明一个命题是正确的，只能通过证明其否命题是错误的来达到目的。假设检验是用统计数据来判断命题真伪的方式。
通常会假设两个命题：H0：备受质疑的命题；H1：有待验证的问题

1.2 一些基本概念

① 显著性水平：估计总体参数落在某一区间内，可能犯错误的概率，通常用α表示。
② 置信度：通常用1-α表示，即测得的统计量和总体真实情况的差距小于这个给定值的概率。
③ 置信区间：在某一置信水平下，样本统计值与总体参数值间的误差范围，置信区间越大，置信水平越高。

1.3 解释p值与计算p值

①p值定义：度量样本所提供的证据对原假设的支持程度，p值越小说明拒绝原假设的证据越多。即观测值能够作出拒绝原假设的最小显著水平。
② 计算p值：上侧检验、下侧检验、双侧检验
③ 检验方式：z检验、t检验、卡方检验

1.4 单双测检验

① 当假设关键词有不得少于（低于）的时候用左侧检验，如灯泡的使用寿命不得少于700小时。
② 当假设关键词有不得多于（高于）的时候用右侧检验，如次品率不得高于5%。
③ 双侧检验指按分布两端计算显著性水平概率的检验，一般假设检验写作：H0：μ1=μ2。

2 假设检验的方法

2.1 z检验

2.1.1 z检验的定义及公式

定义：当总体标准差已知且样本量较大时，用标准正态分布推断差异发生的概率，从而比较两个平均数的差异是否显著。
公式：
① 检验一个样本平均数与一个总体平均数间差异是否显著：
在这里插入图片描述
② 检验来自两个的两组样本平均数的差异性：

2.1.2 z检验的实例

研究正常人与高血压患者的胆固醇含量，比较两组胆固醇含量是否有差异
正常人组数据:n1=506(样本量) μ1=180.6(样本均值) s1=34.2(标准差) 
高血压组数据:n2=142     μ2=223.6     s2=45.8

在这里插入图片描述

2.2 t检验

2.2.1 t检验的定义

t检验：主要分为单样本t检验、配对样本t检验、两独立样本t检验。

t检验用于小样本比较，样本对总体有较好的代表性，且样本来自正态分布总体。

2.2.2 t检验的实例

2.2.2.1 单样本t检验

单样本t检验适用于样本均值μ与已知总体均值μ0的比较。应用于总体标准差未知的小样本比较。
实例：

某地新生儿出生体重为3.3kg，
从该地难产儿中随机抽取35名婴儿，平均体重为3.42kg，标准差为0.4kg，
问该地难产儿出生体重与新生儿体重是否不同？

在这里插入图片描述

2.2.2.2 两独立样本t检验

两独立样本t检验：（ab实验背后原理）适用于完全随机设计的两样本均数的比较，目对是检验两样本所来自总体的均数是否相等。

要求：两样本所代表的总体服从正态分布，且两总体方差相等，若方差不等需要先进行变换，假设检验H0：μ1=μ2

公式：
在这里插入图片描述
实例：

25例糖尿病患者随机分成两组，甲单纯药物治疗，乙采用药物合并饮食治疗，
二月后测空腹血糖如下，问两种疗法血糖值是否相同？ 
数据：n1=12,s1=182.5, n2=13,s2=141

在这里插入图片描述

2.2.2.3 配对样本t检验

定义：指对同一样本进行两次测试所获得的两组数据，或对两个完全相同的样本在不同条件下进行测试所得到的两组数据。

公式：
在这里插入图片描述

3 假设检验的两种错误

第一类错误：原假设成立的情况下拒绝了原假设。
第二类错误：没有成功拒绝不成立的原假设。
在这里插入图片描述

4 三种检验的使用情况及计算公式

4.1 适用范围

① Z检验：
一般用于大样本（即样本容量大于30）平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率，从而比较两个平均数的差异是否显著。在国内也被称作u检验。

② T检验：
主要用于样本含量较小（例如n < 30），总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。

③ 卡方检验：
卡方检验：卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

4.2 计算公式

在这里插入图片描述

5 总结

独立样本t检验 和 配对样本t检验之间的区别：

① 独立样本t检验的数据来源是独立的样本，如同一个班级中男生和女生的成绩是否有差异。

配对样本t检验的范围是同一组对象，例如一个班级中的女生第一次月考和第二次月考的成绩是否有差异。

② 独立样本t检验中的各实验处理组无相关存在，即为独立样本。

配对样本t检验的数据是检验匹配而成的，用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性，组成的样本即为相关样本。