机器学习笔记-假设检验

复杂混沌

已于 2022-03-03 13:35:37 修改

阅读量2.5k

点赞数

分类专栏：机器学习笔记文章标签：机器学习随机森林决策树

于 2022-03-03 13:01:46 首次发布

本文链接：https://blog.csdn.net/weixin_54814385/article/details/123247158

版权

机器学习笔记专栏收录该内容

35 篇文章

订阅专栏

本文详细介绍了假设检验的基本原理，包括原假设与备择假设的设立、显著性水平、检验统计量和拒绝域的概念。通过洗衣粉净含量的例子解释了如何运用假设检验验证厂家声明。此外，讨论了PPP值在决策中的作用，以及大样本与小样本情况下总体均值检验的不同方法。最后，提到了总体比例的检验，并指出假设检验在实际问题中的广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

假设检验是推断统计的一项重要内容，它是先对总体参数提出一个假设值，然后利用样本信息来判断这个假设是否成立。本章主要介绍了假设检验的基本原理和如何针对不同的数据集选择合适的检验方法。

假设检验的基本原理

基本概念

假设检验先对总体参数提出某种假设，然后利用样本信息来判断假设是否成立的统计方法，称为假设检验

假设一般包含两种假设：原假设和备择假设。
研究者想搜集证据和资料来推翻的假设称为原假设，用 $H_0$ ，而备择假设是研究者心里面所支持的假设，通常用 $H_1$ 表示。而假设检验的第一步，就是明确一个问题的原假设和备择假设是什么？

例如，某品牌的洗衣粉产品说明书上称：平均净含量不少于500克。从消费者利益出发，有关人员需要通过抽取其中一部分样品来验证该洗衣粉厂家所说是否正确？

假设 $u$ 是该洗衣粉平均净含量，则作为研究员我们的目的是验证这个洗衣粉存在问题，即 $u < 500 g$ ，所以此时的备择假设就是该洗衣粉有问题，原假设是该洗衣粉没有问题，作为研究员我们需要抽取洗衣粉的样本信息来证明原假设不成立。

明确什么是原假设和什么是备择假设在假设检验中非常重要。有几个需要注意的点：

建立假设时，首先确定备择假设，然后再确定原假设，原因是备择假设是我们关心的内容；
在假设检验中，等号 $=$ 总是放在原假设上，这样做的目的是原假设的内容总是表示参数没有差异或者没有改变，或变量间没有关系；
原假设和备择假设的确定实际上有一部分主观色彩；
原假设从设立开始就是默认成立的，我们的目的就是搜集资料证明原假设不成立；

检验又分为单侧检验和双侧检验，具体定义如下：

备择假设具有特定的方向性，并含有符号">“或“<”的假设i季铵盐，称为单侧检验或单尾检验；
备择假设没有特定的方向性，并含有符号” $\ne$ "的假设检验，称为双侧检验或者双尾检验；

显著性水平

假设检验的目的就是搜集证据证明原假设不成立，但是在搜集过程中我们或多或少的会出现错误，比如事实上原假设是正确的，但是我们判断出来要拒绝原假设，这种情况称为第一例错误，也叫弃真错误，当原假设错误时没有拒绝原假设，所犯的错误称为第二类错误，又叫取伪错误。针对这两种错误我们给出两个概率 $\alpha$ 和 $\beta$ ，分别代表了犯第一类错误和第二类错误的概率，而发生第一类错误的概率通常也被用于检验结论可靠性的度量（原假设的错误概率是人为控制的），我们称其为显著性水平。
显著性并不是指“重要的”，而是指“非偶然的”，如果样本提供的数据拒绝原假设，则称检验的结果是显著的，相反不显著。另一种说法是显著性水平是指当原假设成立时，检验统计量落在拒绝域的概率，英国统计学家Ronald Fisher在研究中把显著性水平定为0.05，于是后人在假设检验的时候会习惯性的把显著性水平定为0.05，其实该值还可以取0.1或者0.01。

检验统计量和拒绝域

在前面我们说了，研究者的目的就是搜索相关信息来推翻原假设，那么如何证明原假设是错误的呢，这就需要引入检验统计量，它是根据观测结果得到的。
$\frac{点估计量-假设值}{点估计量的抽样标准差}$
随着不同的样本，该统计量也是不同的，但只要固定住样本观测数据，检验统计量也就唯一确定了。
假设检验的基本原理还可以叙述为：

根据假设检验统计量建立一个准则，依据这个准则和计算得到的检验统计量值，研究者可以决定是否拒绝原假设。但是哪些值是拒绝原假设的统计量取值呢？这就需要引入拒绝域。

拒绝域： 能够拒绝原假设的检验统计量的所有可能的取值，称为拒绝域；
确定什么范围是拒绝域需要根据显著性水平，对于给定的显著性水平值确定的拒绝域的边界值，我们称为临界值。在实际操作中，给定显著性水平 $\alpha$ 后，计算具体的临界值一般是通过软件计算的，将检验统计量的值与临界值进行比较，就可做拒绝或不拒绝原假设的决策。

其实到这里就可以得到一个初步的检验步骤：
假设检验步骤一：

陈述原假设 $H_0$ 和备择假设 $H_1$ ；
从研究的总体中抽出一个随机样本；
确定一个适当的检验统计量，并用样本数据算出其具体的数值；
确定一个适当的显著性水平，并计算其临界值，指定拒绝域；
将统计量的值与临界值进行比较，并作出决策，若统计量落在拒绝域内，则拒绝原假设 $H_0$ ，否则不拒绝原假设 $H_0$ ;

我的理解是，首先面对一个问题，给出原假设，然后我们要搜集数据证明原假设不成立，只要我们计算的数据在原假设存在错误的拒绝域内，就认为原假设是不成立的。

$P$ 值

上面介绍的检验方法是传统的假设检验，这种方法存在很大的弊端，那就是我们不能比较两种拒绝原假设的情况下的拒绝力度大小，即我们只能判断是还是否，没法给出是多少，否多少。为了解决这个问题，引入 $P$ 的概念。
P值： 如果原假设 $H_0$ 是正确的，所得到的样本结果会像实际观测结果那么极端或者更极端的概率，称为 $P$ 值。
$P$ 值不是估计原假设错误得概率，它与原假设错误不错误没有直接关系。 $P$ 值是假设原假设正确的情况下得到观测数据的概率。由 $P$ 值可知，假设原假设正确，这样的样本数据出现的概率为 $P$ ，如果这样的样本出现的概率很小，则说明我们的原假设不合理。 $P$ 值反映实际观测到的数据与原假设 $H_0$ 之间不一致的程度的一个概率值， $P$ 值越小，说明实际观测到的数据与 $H_0$ 之间不一致的程度就越大，检验的结果也就越显著。
我们便得到基于 $P$ 值得检验方法，如果 $P$ 值过小，表明在原假设为真时得到目前这一得一个样本结果的可能性小，应该拒绝原假设。至于多小的 $P$ 值才会默认拒绝原假设，我们需要在检验开始前设定一个默认值。

$P$ 值的计算过程，这里只针对单侧检验来举例，其它的情况都时类似的，假设符号 $z$ 表示检验统计量， $z_c$ 表示根据样本数据得到的检验统计量。对于左侧检验有：
左侧检验： $H_0:\mu\ge\mu_0；H_1:\mu\le\mu_0$
当 $\mu=\mu_0$ 时，检验统计量小于或等于实际观测样本数据计算得到的统计量的概率 $P(z\le z_c|\mu=\mu_0)$

深入理解显著性水平

显著性水平是事先所要求的用于拒绝原假设的概率，即 $P$ 值，事实上，对于事先给定的一个显著性水平，实际上就是说所求的 $P$ 值小到什么程度才能称为显著性水平，这个事先给定的显著性水平称为 $\alpha$ ，当我们求得的 $P$ 值小于给定的 $\alpha$ 值时，才能拒绝原假设。至于为什么要用 $P$ ，这是因为使用 $P$ 来决策不仅仅可以得到是否拒绝原假设，还可以得到一个具体的值，利用这个值可以比较拒绝的力度大小，而在之前的利用 $\alpha$ 来判断是否拒绝原假设也只是知道犯错误的可能性是 $\alpha$ ，但究竟是多少却不知道。而 $P$ 值则是算出的犯第一类错误的实际概率。与其为了确定合适的 $\alpha$ 值，不如直接把真正的 $\alpha$ 算出来。

基于 $P$ 我们可以得到第二中假设检验的步骤：

陈述原假设 $H_0$ 和备择假设 $H_1$ ；
从研究的总体中抽出一个随机样本；
确定一个适当的检验统计量，并用样本数据算出其具体的数值；
确定一个显著性水平 $\alpha$ ，并利用统计检验量计算概率 $P$ 值；
将 $P$ 值与显著性水平 $\alpha$ 进行比较，并作出决策，若 $P$ 小于 $\alpha$ ，则拒绝原假设 $H_0$ ，否则不拒绝原假设 $H_0$ ;

注意：在假设检验时，如果原假设被拒绝，则称检验结果是“统计上显著的”；如果不拒绝原假设，则称检验结果是“统计上不显著的”。

总体均值的检验

前面一节详细介绍了假设检验的主要步骤，我们知道所有的假设检验都需要确定一个检验统计量，在对总体均值进行假设检验时，采用什么检验步骤和检验统计量取决于所抽取样本是大样本（n>30）还是小样本(n<30)，此外，还需要区分总体是否服从正态分布，总体方差是否已知。

大样本的检验方法

在大样本的情况下，样本均值的抽样分布近似服从正态分布，其抽样标准差为 $\sigma \sqrt n$ ，将样本均值 $\overline x$ 经过标准化后即可得到检验统计量。
假设总体样本均值为 $\mu$ ，总体方差 $\sigma^2$ 已知时，总体均值检验统计量为：
$z=\frac{\overline x-\mu_0}{\sigma / \sqrt n}$
当总体方差 $\sigma^2$ 未知时，可以用样本方差 $x^2$ 来代替总体方差，此时总体均值检验统计量为：
$z=\frac{\overline x-\mu_0}{s/\sqrt n}$
在计算检验统计量之后，我们就可以计算 $P$ 值，这个过程一般都是计算机来计算的。

小样本的检验方法

小样本(n<30)情况下，检验统计量的选择与总体是否服从正太分布、总体方差是否已知有着密切关系。我们这里所介绍的所有小样本情况，都是基于总体服从正太分布，如果无法确定总体是否服从正态分布，那么可以考虑将小样本的数据量增大到30以上，然后按照大样本的方法进行检验。
当小样本的总体方差 $\sigma^2$ 也是已知时，这个时后任然可以用大样本方差已知情况下的检验方法进行检验，下面着重考虑小样本总体方差未知的情况下均值检验方法。
对于小样本，当总体方差 $\sigma^2$ 未知时，需要用样本方差 $s^2$ 代替总体方差，此时计算的检验统计量不在服从正态分布，而是服从自由度为n-1的 $t$ 分布。因此需要采用 $t$ 分布来检验总体均值，通常称为 $t 检验$ ，检验统计量为：
$t=\frac{\overline x-\mu_0}{s/\sqrt n}$

要知道在什么情况下使用什么方法，需要弄清楚各种方法的适用场合。

总体比例的检验

总体比例检验是指总体中具有某种相同特征的个体所占的比例，这些特征可以是数值型数据，也可以是类别型数据。总体比例检验和总体均值检验基本上是相同的，区别只在于参数和检验统计量的形式不同。
假设总体比例为 $\pi$ ，样本比例 $p$ ，在大样本情况下统计量 $p$ 近似服从正态分布，而统计量为：
$z=\frac{p-\pi_0}{\sqrt {\frac{\pi_0(1-\pi_0)}{n}}}$
则近似服从标准正态分布。