上文可知:显著性检验的核心是,基于正态分布下,
- 计算随机误差概率 P 值:先计算两组数据的均值差异程度→进而计算概率 P 值
- 判断随机误差概率 P 值:设置P值界限(即规定显著性水平 α)→进而比较 P 值与 α,判断差异的显著性
P值<α:差异显著,认为是变量导致的本质差异
P值≥α:差异不显著,无法判断差异是什么原因(既有可能随机产生,也有可能变量导致本质差异)
了解显著性检验基本原理后,开始进入正式系统的学习——假设检验。
假设检验,是对显著性检验的系统完善。
可以说显著性检验是假设检验的内核,假设检验是显著性检验的逻辑补充。
本文先讲解假设检验的基本流程,及每一个流程的统计学相关知识及原理,尽可能做到清晰易懂,不含糊!
- 假设检验的前置准备:
①选择检验方式
前置准备的意义:
根据数据的不同统计情况,应选择不同的显著性检验方式!
否则,方式用不对,就像在机场等一艘船,你的苦苦等待,永远无法等到他的返航。
到时候,计算错误,还判断个锤子🔨
前置准备做好后,再进行以下正式的假设检验流程
- 假设检验的检验流程:
① 提出假设
②计算检验统计量
③ 计算 P 值
④ 规定显著性水平
⑤ 判断显著性
这篇文,大概率是讲不完所有流程的,能讲完前置准备,就烧高香了!
一、假设检验的前置准备
假设检验的检验方式(即显著性检验方式),有很多种。
最常见有三:z检验、T检验、卡方检验
知其一、二,可触类旁通三四五!
所以,我不可能详解一二三四五,不然就可以写出一本书,我只是个笔记!!!
计划只讲 Z 检验和 T 检验
假设检验有多种检验方式,每种检验方式对应不同的数据要求。
为了更清楚,每种检验为什么要有不同的数据要求,就要深入认识检验方式。
1.1 深入认识检验方式
常见检验方式:Z检验和T检验
Z检验、T检验,都是基于正态分布下的检验,先了解 T 检验,才能更懂 T 检验与 Z检验的区别。
1.1.1 了解 Z 检验
Z检验有两种检验情况:样本与总体的检验、总体与总体的检验
样本与总体
的均值差异显著性检验:判断某个样本,是否来自于这个总体,即样本本质是这个总体。
——俗称【单样本Z检验】:要求总体服从正态分布
单样本Z检验(显著性检验方式的一种,可以实现👉):计算均值差异程度→计算差异随机概率
单样本Z检验的均值差异程度,通常称为 检验统计量 z值,公式为
总体与总体
的均值差异显著性检验:判断两个总体本质是否相同。
——俗称【双总体Z检验】(也可以叫双总体Z检验):要求两个总体分别服从正态分布
双总体Z检验(显著性检验方式的一种,可以实现👉):计算均值差异程度→计算差异随机概率
双总体Z检验的均值差异程度,也叫 检验统计量 z值,但公式与单样本公式不同,为:
-
Z检验总结
单样本Z检验与双样本Z检验的相同点:
① 要求总体方差已知且服从正态分布,才能计算出各自的检验统计量 z 值(即均值差异程度)单样本Z检验与双样本Z检验的不同点:
①检验统计量 z 值(即均值差异程度)的计算公式不同!
因此,Z检验,都是要求总体方差已知的!
但由于在实际采集数据时,总体数据量太大,有时很难获取到总体的数据,也就是无法计算出总体方差,没办法使用Z检验,计算出检验统计量 z 值。
论备胎的重要性
如果采集不到总体数据,我们可以用样本数据来代替。
于是,作为Z检验的替代品—— T 检验,就粉墨登场了
备胎的存在,是有统计学意义的!
令人三观震碎的是:T 检验作为备胎,比正主Z检验,更实用!更好用!更顺手!
——唉,世风日下,人心不古
话虽如此,还是要正三观:爱情的备胎,是道德滑坡,大可不必!
这时候,写着写着,不由得打开QQ音乐的《替代品》
————————《下班,明天再继续》————————————
1.1.2 了解 T 检验
T 检验时,计算的检验统计量称为 t 值。
T 检验是用样本替代总体,因此 t值 与 z值 计算区别如下:
因此,Z检验 和 T 检验的区别显而易见:总体方差(标准差)是否已知!
单样本Z检验、双样本Z检验、单样本T检验、双独立样本T检验,是较为常见的 4 种检验
但是,在双样本检验中,为什么会强调独立性呢?
双独立样本,是与配对样本对应的:
- 配对样本:两个样本之间的数据一一对应
(例如100对夫妻的收入:样本1为100个妻子的收入,样本2为100个丈夫的收入,样本1的某个妻子,对应样本2的某个丈夫)
一夫一妻制社会!!!如:妻小兰&夫新一
- 双独立样本:两个样本之间的数据,没有一一对应关系
因此,针对匹配样本,有专门的配对样本 T 检验,t 值不一样。
要想深入了解,可以进一步全面学习:检验统计量公式
1.1.3 选择具体检验方式
简单区分 Z 检验、 T 检验后,可以得到如下 5 个常用检验及对应数据要求:
- 【单样本检验】
单样本 Z 检验:总体方差已知,总体服从正态
单样本 T 检验:样本0方差已知,样本0服从正态 - 【双样本检验】
双样本 Z 检验:双总体方差已知,双总体分别服从正态
双独立样本 T 检验:双样本方差已知,双样本分别服从正态,双样本独立
配对样本 T 检验:双样本方差已知,双样本分别服从正态,双样本匹配【暂不讲解】
了解检验方式后,就可以分析数据统计情况,进而选择对应的检验方式了:
- 首先判断单样本检验or双样本检验:
①单样本:在某个总体中,抽取一个样本,进行样本与总体的检验
②双样本:在两个总体中,分别抽取两个样本,进行样本与样本的检验
- 其次判断 Z 检验还是 T 检验:
①Z检验:总体方差已知
②T检验:总体方差未知
- 最后判断数据正态性:
①单样本Z检验:总体服从正态
②单样本T检验:样本0服从正态
③双样本Z检验:双总体分别服从正态
④双样本T检验:双样本分别服从正态
重点补充:判断数据正态性
正态分布,通常有标准正态分布N(0,1),还有一般正态分布N(μ,σ)。
可扩展认识:标准正态与一般正态
进行显著性检验,只需要近似服从一般正态分布。
- 简便实用的两种判断方法:
作图-【直方图】:将数据绘制呈直方图,曲线近似正态分布即可。
理论-【中心极限定理】:当样本量>30时,样本均值近似服从正态分布。
判断数据正态性的方法详解:判断数据正态性方法
中心极限定理详解:中心极限定理
我忽然觉得,这个东西要写完写详细,遥遥长路漫漫风萧萧…
二、猫咪减肥ABtest——假设检验前置准备
猫咪减肥的ABtest
对比两组数据:运动减肥前90天的体重数据、运动减肥后30天的体重数据
研究变量影响:判断运动减肥是否有效。
- 首先判断单样本检验or双样本检验:
双样本:分别抽取的是减肥前、减肥后的两个样本,进行样本与样本的检验
- 其次判断 Z 检验还是 T 检验:
T检验:无法获取减肥前后的总体体重数据,减肥前、后的总体体重方差未知
- 最后判断数据正态性:
应用【直方图】:判断减肥前、减肥后的体重,曲线分别近似服从正态
或根据【中心极限定理】:减肥前样本量≥30,减肥后样本量≥30,因此减肥前、后的样本均值理论上应该是近似正态分布的
正态性检验原理:
正态性检验原理
最终确定:双样本分别服从正态,且双样本相互独立,应选择双样本独立T检验。
明确显著性检验的方式后,即可进入假设检验。