假设检验-前置准备(三)

上文可知:显著性检验的核心是,基于正态分布下,

  • 计算随机误差概率 P 值:先计算两组数据的均值差异程度→进而计算概率 P 值
  • 判断随机误差概率 P 值:设置P值界限(即规定显著性水平 α)→进而比较 P 值与 α,判断差异的显著性
    P值<α:差异显著,认为是变量导致的本质差异
    P值≥α:差异不显著,无法判断差异是什么原因(既有可能随机产生,也有可能变量导致本质差异)

了解显著性检验基本原理后,开始进入正式系统的学习——假设检验。

假设检验,是对显著性检验的系统完善。

可以说显著性检验是假设检验的内核,假设检验是显著性检验的逻辑补充。

本文先讲解假设检验的基本流程,及每一个流程的统计学相关知识及原理,尽可能做到清晰易懂,不含糊!

  • 假设检验的前置准备:
    ①选择检验方式

前置准备的意义:
根据数据的不同统计情况,应选择不同的显著性检验方式!
否则,方式用不对,就像在机场等一艘船,你的苦苦等待,永远无法等到他的返航。
到时候,计算错误,还判断个锤子🔨

前置准备做好后,再进行以下正式的假设检验流程

  • 假设检验的检验流程:
    ① 提出假设
    ②计算检验统计量
    ③ 计算 P 值
    ④ 规定显著性水平
    ⑤ 判断显著性

这篇文,大概率是讲不完所有流程的,能讲完前置准备,就烧高香了!

一、假设检验的前置准备

假设检验的检验方式(即显著性检验方式),有很多种。
最常见有三:z检验、T检验、卡方检验

知其一、二,可触类旁通三四五!

所以,我不可能详解一二三四五,不然就可以写出一本书,我只是个笔记!!!
计划只讲 Z 检验和 T 检验

假设检验有多种检验方式,每种检验方式对应不同的数据要求。
为了更清楚,每种检验为什么要有不同的数据要求,就要深入认识检验方式。

1.1 深入认识检验方式

常见检验方式:Z检验和T检验

Z检验、T检验,都是基于正态分布下的检验,先了解 T 检验,才能更懂 T 检验与 Z检验的区别。

1.1.1 了解 Z 检验

Z检验有两种检验情况:样本与总体的检验、总体与总体的检验

样本与总体均值差异显著性检验:判断某个样本,是否来自于这个总体,即样本本质是这个总体。
——俗称【单样本Z检验】:要求总体服从正态分布

单样本Z检验(显著性检验方式的一种,可以实现👉):计算均值差异程度→计算差异随机概率

单样本Z检验的均值差异程度,通常称为 检验统计量 z值,公式为
在这里插入图片描述
总体与总体均值差异显著性检验:判断两个总体本质是否相同。
——俗称【双总体Z检验】(也可以叫双总体Z检验):要求两个总体分别服从正态分布

双总体Z检验(显著性检验方式的一种,可以实现👉):计算均值差异程度→计算差异随机概率

双总体Z检验的均值差异程度,也叫 检验统计量 z值,但公式与单样本公式不同,为:
在这里插入图片描述

  • Z检验总结
    单样本Z检验与双样本Z检验的相同点
    ① 要求总体方差已知且服从正态分布,才能计算出各自的检验统计量 z 值(即均值差异程度)

    单样本Z检验与双样本Z检验的不同点
    ①检验统计量 z 值(即均值差异程度)的计算公式不同!

因此,Z检验,都是要求总体方差已知的!

但由于在实际采集数据时,总体数据量太大,有时很难获取到总体的数据,也就是无法计算出总体方差,没办法使用Z检验,计算出检验统计量 z 值。

论备胎的重要性

如果采集不到总体数据,我们可以用样本数据来代替。

于是,作为Z检验的替代品—— T 检验,就粉墨登场了
在这里插入图片描述

备胎的存在,是有统计学意义的!
令人三观震碎的是:T 检验作为备胎,比正主Z检验,更实用!更好用!更顺手!
——唉,世风日下,人心不古
话虽如此,还是要正三观:爱情的备胎,是道德滑坡,大可不必!
这时候,写着写着,不由得打开QQ音乐的《替代品》

————————《下班,明天再继续》————————————

1.1.2 了解 T 检验

T 检验时,计算的检验统计量称为 t 值。

T 检验是用样本替代总体,因此 t值 与 z值 计算区别如下:
在这里插入图片描述
在这里插入图片描述
因此,Z检验 和 T 检验的区别显而易见:总体方差(标准差)是否已知!

单样本Z检验、双样本Z检验、单样本T检验、双独立样本T检验,是较为常见的 4 种检验

但是,在双样本检验中,为什么会强调独立性呢?

双独立样本,是与配对样本对应的:

  • 配对样本:两个样本之间的数据一一对应
    (例如100对夫妻的收入:样本1为100个妻子的收入,样本2为100个丈夫的收入,样本1的某个妻子,对应样本2的某个丈夫)

一夫一妻制社会!!!如:妻小兰&夫新一

  • 双独立样本:两个样本之间的数据,没有一一对应关系

因此,针对匹配样本,有专门的配对样本 T 检验,t 值不一样。

要想深入了解,可以进一步全面学习:检验统计量公式

1.1.3 选择具体检验方式

简单区分 Z 检验、 T 检验后,可以得到如下 5 个常用检验及对应数据要求:

  • 【单样本检验】
    单样本 Z 检验:总体方差已知,总体服从正态
    单样本 T 检验:样本0方差已知,样本0服从正态
  • 【双样本检验】
    双样本 Z 检验:双总体方差已知,双总体分别服从正态
    双独立样本 T 检验:双样本方差已知,双样本分别服从正态,双样本独立
    配对样本 T 检验:双样本方差已知,双样本分别服从正态,双样本匹配【暂不讲解】

了解检验方式后,就可以分析数据统计情况,进而选择对应的检验方式了:

- 首先判断单样本检验or双样本检验:
①单样本:在某个总体中,抽取一个样本,进行样本与总体的检验
②双样本:在两个总体中,分别抽取两个样本,进行样本与样本的检验
- 其次判断 Z 检验还是 T 检验:
①Z检验:总体方差已知
②T检验:总体方差未知
- 最后判断数据正态性:
①单样本Z检验:总体服从正态
②单样本T检验:样本0服从正态
③双样本Z检验:双总体分别服从正态
④双样本T检验:双样本分别服从正态

重点补充:判断数据正态性

正态分布,通常有标准正态分布N(0,1),还有一般正态分布N(μ,σ)。

可扩展认识:标准正态与一般正态

进行显著性检验,只需要近似服从一般正态分布。

  • 简便实用的两种判断方法:
    作图-【直方图】:将数据绘制呈直方图,曲线近似正态分布即可。
    理论-【中心极限定理】:当样本量>30时,样本均值近似服从正态分布。

判断数据正态性的方法详解:判断数据正态性方法
中心极限定理详解:中心极限定理

我忽然觉得,这个东西要写完写详细,遥遥长路漫漫风萧萧…

二、猫咪减肥ABtest——假设检验前置准备

猫咪减肥的ABtest
对比两组数据:运动减肥前90天的体重数据、运动减肥后30天的体重数据
研究变量影响:判断运动减肥是否有效。

- 首先判断单样本检验or双样本检验:
双样本:分别抽取的是减肥前、减肥后的两个样本,进行样本与样本的检验
- 其次判断 Z 检验还是 T 检验:
T检验:无法获取减肥前后的总体体重数据,减肥前、后的总体体重方差未知
- 最后判断数据正态性:
应用【直方图】:判断减肥前、减肥后的体重,曲线分别近似服从正态
或根据【中心极限定理】:减肥前样本量≥30,减肥后样本量≥30,因此减肥前、后的样本均值理论上应该是近似正态分布的
正态性检验原理:正态性检验原理
最终确定:双样本分别服从正态,且双样本相互独立,应选择双样本独立T检验。

明确显著性检验的方式后,即可进入假设检验。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值