假设检验-前置准备（三）

# JFZero

已于 2023-06-15 17:30:10 修改

阅读量555

点赞数

分类专栏：统计学习文章标签： ab测试 python 开发语言

于 2023-04-03 20:36:03 首次发布

本文链接：https://blog.csdn.net/weixin_50348308/article/details/129937418

版权

统计学习专栏收录该内容

17 篇文章 1 订阅

订阅专栏

上文可知：显著性检验的核心是，基于正态分布下，

计算随机误差概率 P 值：先计算两组数据的均值差异程度→进而计算概率 P 值
判断随机误差概率 P 值：设置P值界限（即规定显著性水平 α）→进而比较 P 值与 α，判断差异的显著性
P值<α：差异显著，认为是变量导致的本质差异
P值≥α：差异不显著，无法判断差异是什么原因（既有可能随机产生，也有可能变量导致本质差异）

了解显著性检验基本原理后，开始进入正式系统的学习——假设检验。

假设检验，是对显著性检验的系统完善。

可以说显著性检验是假设检验的内核，假设检验是显著性检验的逻辑补充。

本文先讲解假设检验的基本流程，及每一个流程的统计学相关知识及原理，尽可能做到清晰易懂，不含糊！

假设检验的前置准备：
①选择检验方式

前置准备的意义：
根据数据的不同统计情况，应选择不同的显著性检验方式！
否则，方式用不对，就像在机场等一艘船，你的苦苦等待，永远无法等到他的返航。
到时候，计算错误，还判断个锤子🔨

前置准备做好后，再进行以下正式的假设检验流程

假设检验的检验流程：
① 提出假设
②计算检验统计量
③ 计算 P 值
④ 规定显著性水平
⑤ 判断显著性

这篇文，大概率是讲不完所有流程的，能讲完前置准备，就烧高香了！

一、假设检验的前置准备

假设检验的检验方式（即显著性检验方式），有很多种。
最常见有三：z检验、T检验、卡方检验

知其一、二，可触类旁通三四五！

所以，我不可能详解一二三四五，不然就可以写出一本书，我只是个笔记！！！
计划只讲 Z 检验和 T 检验

假设检验有多种检验方式，每种检验方式对应不同的数据要求。
为了更清楚，每种检验为什么要有不同的数据要求，就要深入认识检验方式。

1.1 深入认识检验方式

常见检验方式：Z检验和T检验

Z检验、T检验，都是基于正态分布下的检验，先了解 T 检验，才能更懂 T 检验与 Z检验的区别。

1.1.1 了解 Z 检验

Z检验有两种检验情况：样本与总体的检验、总体与总体的检验

样本与总体的均值差异显著性检验：判断某个样本，是否来自于这个总体，即样本本质是这个总体。
——俗称【单样本Z检验】：要求总体服从正态分布

单样本Z检验（显著性检验方式的一种，可以实现👉）：计算均值差异程度→计算差异随机概率

单样本Z检验的均值差异程度，通常称为检验统计量 z值，公式为
在这里插入图片描述
总体与总体的均值差异显著性检验：判断两个总体本质是否相同。
——俗称【双总体Z检验】（也可以叫双总体Z检验）：要求两个总体分别服从正态分布

双总体Z检验（显著性检验方式的一种，可以实现👉）：计算均值差异程度→计算差异随机概率

双总体Z检验的均值差异程度，也叫检验统计量 z值，但公式与单样本公式不同，为：
在这里插入图片描述

Z检验总结
单样本Z检验与双样本Z检验的相同点：
① 要求总体方差已知且服从正态分布，才能计算出各自的检验统计量 z 值（即均值差异程度）

单样本Z检验与双样本Z检验的不同点：
①检验统计量 z 值（即均值差异程度）的计算公式不同！

因此，Z检验，都是要求总体方差已知的！

但由于在实际采集数据时，总体数据量太大，有时很难获取到总体的数据，也就是无法计算出总体方差，没办法使用Z检验，计算出检验统计量 z 值。

论备胎的重要性

如果采集不到总体数据，我们可以用样本数据来代替。

于是，作为Z检验的替代品—— T 检验，就粉墨登场了
在这里插入图片描述

备胎的存在，是有统计学意义的！
令人三观震碎的是：T 检验作为备胎，比正主Z检验，更实用！更好用！更顺手！
——唉，世风日下，人心不古
话虽如此，还是要正三观：爱情的备胎，是道德滑坡，大可不必！
这时候，写着写着，不由得打开QQ音乐的《替代品》

————————《下班，明天再继续》————————————

1.1.2 了解 T 检验

T 检验时，计算的检验统计量称为 t 值。

T 检验是用样本替代总体，因此 t值与 z值计算区别如下：
在这里插入图片描述

因此，Z检验和 T 检验的区别显而易见：总体方差（标准差）是否已知！

单样本Z检验、双样本Z检验、单样本T检验、双独立样本T检验，是较为常见的 4 种检验

但是，在双样本检验中，为什么会强调独立性呢？

双独立样本，是与配对样本对应的：

配对样本：两个样本之间的数据一一对应
（例如100对夫妻的收入：样本1为100个妻子的收入，样本2为100个丈夫的收入，样本1的某个妻子，对应样本2的某个丈夫）

一夫一妻制社会！！！如：妻小兰&夫新一

双独立样本：两个样本之间的数据，没有一一对应关系

因此，针对匹配样本，有专门的配对样本 T 检验，t 值不一样。

要想深入了解，可以进一步全面学习：检验统计量公式

1.1.3 选择具体检验方式

简单区分 Z 检验、 T 检验后，可以得到如下 5 个常用检验及对应数据要求：

【单样本检验】
单样本 Z 检验：总体方差已知，总体服从正态
单样本 T 检验：样本0方差已知，样本0服从正态
【双样本检验】
双样本 Z 检验：双总体方差已知，双总体分别服从正态
双独立样本 T 检验：双样本方差已知，双样本分别服从正态，双样本独立
配对样本 T 检验：双样本方差已知，双样本分别服从正态，双样本匹配【暂不讲解】

了解检验方式后，就可以分析数据统计情况，进而选择对应的检验方式了：

- 首先判断单样本检验or双样本检验：
①单样本：在某个总体中，抽取一个样本，进行样本与总体的检验
②双样本：在两个总体中，分别抽取两个样本，进行样本与样本的检验
- 其次判断 Z 检验还是 T 检验：
①Z检验：总体方差已知
②T检验：总体方差未知
- 最后判断数据正态性：
①单样本Z检验：总体服从正态
②单样本T检验：样本0服从正态
③双样本Z检验：双总体分别服从正态
④双样本T检验：双样本分别服从正态

重点补充：判断数据正态性

正态分布，通常有标准正态分布N（0，1），还有一般正态分布N（μ，σ）。

可扩展认识：标准正态与一般正态

进行显著性检验，只需要近似服从一般正态分布。

简便实用的两种判断方法：
作图-【直方图】：将数据绘制呈直方图，曲线近似正态分布即可。
理论-【中心极限定理】：当样本量>30时，样本均值近似服从正态分布。

判断数据正态性的方法详解：判断数据正态性方法
中心极限定理详解：中心极限定理

我忽然觉得，这个东西要写完写详细，遥遥长路漫漫风萧萧…

二、猫咪减肥ABtest——假设检验前置准备

猫咪减肥的ABtest
对比两组数据：运动减肥前90天的体重数据、运动减肥后30天的体重数据
研究变量影响：判断运动减肥是否有效。

- 首先判断单样本检验or双样本检验：
双样本：分别抽取的是减肥前、减肥后的两个样本，进行样本与样本的检验
- 其次判断 Z 检验还是 T 检验：
T检验：无法获取减肥前后的总体体重数据，减肥前、后的总体体重方差未知
- 最后判断数据正态性：
应用【直方图】：判断减肥前、减肥后的体重，曲线分别近似服从正态
或根据【中心极限定理】：减肥前样本量≥30，减肥后样本量≥30，因此减肥前、后的样本均值理论上应该是近似正态分布的
正态性检验原理：正态性检验原理
最终确定：双样本分别服从正态，且双样本相互独立，应选择双样本独立T检验。

明确显著性检验的方式后，即可进入假设检验。