【数理统计】5-假设检验、参数与非参数检验

WSKH0929

已于 2024-06-12 11:05:08 修改

阅读量2.6k

点赞数 10

分类专栏：专业课笔记文章标签：人工智能数理统计假设检验参数检验非参数检验

于 2024-06-11 10:59:59 首次发布

本文链接：https://blog.csdn.net/weixin_51545953/article/details/139560008

版权

专业课笔记专栏收录该内容

16 篇文章

订阅专栏

文章目录

一、前言
二、参数检验和非参数检验

一、前言

假设检验（hypothesis testing），又称统计假设检验，是一种用于判断样本与样本、样本与总体的差异是由抽样误差引起还是由本质差别造成的统计推断方法。具体而言，假设检验通过以下步骤进行：

设立假设（Set the Hypothesis）：通常包括原假设（H0）和备择假设（H1）。原假设一般表示没有效应或没有差异，而备择假设表示存在效应或差异。
设定显著性水平（Set the Significance Level）：常用的显著性水平有0.05、0.01等，这个值表示在多大程度上可以接受拒绝原假设的风险。
计算检验统计量（Calculate Test Statistic）：根据样本数据计算出相应的统计量，如z值、t值等。
确定决策标准（Set Criteria for a Decision）：根据显著性水平和检验统计量确定是否拒绝原假设。
做出结论（Make a Conclusion）：根据计算结果和决策标准，判断是否有足够证据拒绝原假设。

假设检验的核心在于通过系统的方法判断数据是否支持某种假设，从而为统计推断提供依据。

假设检验的一个简单例子如下：

假设你怀疑一枚硬币可能不是公平的，即它落在正面和反面的概率不相等。你希望通过实验来验证这一假设。

设立假设：
- 原假设（H0）：硬币是公平的，即正面和反面的概率都是50%。
- 备择假设（H1）：硬币不是公平的，即正面和反面的概率不是50%。
选择检验统计量：
- 你选择通过投掷硬币100次，记录出现正面的次数作为检验统计量。
确定拒绝域：
- 设定显著性水平为0.05。根据正态分布，当硬币是公平时，正面出现次数的期望值为50，标准误差为 $\sqrt{100 * 0.5 * 0.5} = 5$ 。选择z检验，并确定正态分布下95%置信区间为[40, 60]。
计算检验统计量：
- 进行实验，假设结果是硬币正面出现了65次。
- 计算z值：(65 - 50) / 5 = 3。
做出决策：
- z值3显著超出了设定的拒绝域[40, 60]，因此我们有足够的证据拒绝原假设。

结论：根据实验结果，可以认为这枚硬币不是公平的。

二、参数检验和非参数检验

参数检验和非参数检验是统计推断的两种基本方法：

参数检验（Parametric tests）：
- 假设数据来自某种已知分布（如正态分布）。
- 通过样本数据对总体参数（如均值、方差）进行估计和检验。
- 需要满足一定的前提条件，例如数据的独立性和正态性。
- 例子：t检验、方差分析（ANOVA）。
非参数检验（Nonparametric tests）：
- 不需要假设数据来自某种特定分布。
- 适用于总体分布未知或知道甚少的情况。
- 更加灵活，但在某些情况下，统计效率较低。
- 例子：卡方检验（Chi-square test）、秩和检验（Rank-sum test）。

参数检验适用于已知总体分布且样本量较大时，而非参数检验则在样本量较小或总体分布未知时更为合适。

2.1 卡方检验（非参数检验）

卡方检验（Chi-Square Test）是一种常用的假设检验方法，主要用于分析两个或多个分类变量之间是否存在关联性。它属于非参数检验方法，常用于医学、工程、产品设计等领域。

卡方检验的根本思想是比较实际观察值和理论期望值之间的差异，从而判断变量之间的关联性是否显著。

卡方统计量的计算公式为：
$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$

其中： $O_i$ 为第 $i$ 类的观察频数（实际值）， $E_i$ 为第 $i$ 类的期望频数（理论值）

卡方检验主要分为单因素卡方检验和双因素卡方检验：

单因素卡方检验（Chi-Square Test for Independence）用于检验两个分类变量是否存在统计关联。它通过比较实际观测值与理论期望值来判断变量之间的关系。
双因素卡方检验（Chi-Square Test for Homogeneity）用于检验两个或多个分类变量在不同样本中的分布是否相同。其步骤类似于单因素卡方检验，但涉及多个样本的列联表

2.1.1 单因素卡方检验例子

假设我们想研究某个学校男女生比例是否符合预期的1:1。我们随机调查了该学校的200名学生，其中120个男生，80个女生。

性别	实际人数
男生	120
女生	80

为了检验该学校的男女比例是否显著不同于1:1，我们可以使用单因素卡方检验，步骤如下：

计算期望频数：期望人数：假设学校男女比例为1:1，期望男生和女生人数均为100。
- 男生期望频数：100
- 女生期望频数：100
计算卡方统计量：

$\chi^2 = \sum_{i=1}^{2} \frac{(O_i - E_i)^2}{E_i}=\frac{(120 - 100)^2}{100} + \frac{(80 - 100)^2}{100}=\frac{400}{100} + \frac{400}{100} = 4 + 4 = 8$

计算自由度： $df = n - 1 = 2 - 1 = 1$
查卡方分布表得临界值：

以下是自由度为1的卡方分布表，列出了不同显著性水平（α）下的临界值：

显著性水平 (α)	卡方临界值 (χ²)
0.10	2.706
0.05	3.841
0.025	5.024
0.01	6.635
0.005	7.879
0.001	10.828

根据上表可知：在自由度为1的情况下，查卡方分布表，显著性水平为0.05时，临界值为3.841

得出结论

由于 $\chi^2=8>3.841$ ，因此我们拒绝零假设，认为该学校的男女比例显著不同于1:1

2.1.2 双因素卡方检验

假设我们想检验性别与是否喜欢看电影之间是否有关系。我们调查了100人，其中男性有30人喜欢看电影，20人不喜欢看电影；女性有10人喜欢看电影，40人不喜欢看电影。

列出列联表

	喜欢看电影	不喜欢看电影	合计
男性	30	20	50
女性	10	40	50
合计	40	60	100

计算期望频数

根据列联表和公式： $E_{ij} = \frac{\text{第i行合计} \times \text{第j列合计}}{\text{总合计}}$

可以计算期望频数如下：

$E_{11} = \frac{50 \times 40}{100} = 20, E_{12} = \frac{50 \times 60}{100} = 30 \\ E_{21} = \frac{50 \times 40}{100} = 20, E_{22} = \frac{50 \times 60}{100} = 30$

计算卡方统计量

将实际值和期望值代入卡方公式计算：
$\chi^2 =\sum{ \frac{(O_{ij}-E_{ij})^2}{E_{ij}}}=\frac{(30-20)^2}{20} + \frac{(20-30)^2}{30} + \frac{(10-20)^2}{20} + \frac{(40-30)^2}{30} = 10 + 3.33 + 5 + 3.33 = 21.66$
计算自由度： $\times (列数-1)=(2-1) \times (2-1)=1 \times 1 = 1$
查表得临界值： $3.841$
得出结论

由于 $\chi^2 > 3.841$ ，所以我们拒绝原假设，认为性别与是否喜欢看电影之间不存在关系。

2.2 t检验（参数检验）

t检验是一种统计方法，用于比较两个样本均值是否显著不同。它主要用于样本量较小（通常小于30）且样本服从正态分布的情况。t检验包括单样本t检验、独立样本t检验和配对样本t检验。

t检验是一种有效的统计工具，适用于样本量较小的情况，通过计算t值并与临界值比较来判断均值差异是否显著。

公式：
$t=\frac{(\overline{X}-\overline{Y})}{\sqrt{Var(\overline{X}-\overline{Y})}}$
其中， $Var(\overline{X}-\overline{Y})$ 代表的是两组样本均值之差的方差。具体来说，这表示的是两个独立样本的均值之差的方差，用于评估两个样本均值之间的变异程度。不同类型的t检验之间的区别就在于如何估计和计算 $Var(\overline{X}-\overline{Y})$ 。

2.2.1 单样本t检验（One-Sample t-Test）

单样本t检验用于检验样本均值是否与已知的总体均值有显著差异。

其实我们可以想象一下，把样本当成样本X，而总体当成样本Y。

公式：

$Var(\overline{X}-\overline{Y}) = \frac{s^2}{n}$

$t=\frac{(\overline{X}-\overline{Y})}{\sqrt{Var(\overline{X}-\overline{Y})}}=\frac{(\overline{X}-\mu)}{\sqrt{\frac{s^2}{n}}}$

$df = n - 1$

其中， $\overline{X}$ 是样本均值， $\mu$ 是总体均值， $s$ 是样本标准差， $n$ 是样本量

例子：假设我们有一个样本数据，测量了10位学生的数学成绩，分别是85, 90, 78, 92, 88, 76, 95, 89, 83, 91。已知总体均值 $\mu$ 为 $85$ 。我们想知道这10个同学的成绩均值是否与总体均值没有显著差异。

首先提出假设：

零假设( $H_0$ )：样本均值与总体均值相等（即，样本均值与总体均值没有显著差异）
备择假设( $H_1$ )：样本均值与总体均值不相等（即，样本均值与总体均值有显著差异）。

然后计算样本均值和样本标准差：

$\overline{X}=\frac{867}{10}=86.7, \ s^2=\frac{340.1}{10-1}=37.79$

然后计算t统计量：

$\frac{86.7-85}{\sqrt{\frac{37.79}{10}}}\approx 0.874$

然后查t分布表，根据自由度（n-1=9）和设定的显著性水平（如0.05）确定临界值：

以下是自由度为9时的t分布临界值表可以根据不同的显著性水平（α值）提供的 t 值：

α（显著性水平）	单侧临界值（tα,9）	双侧临界值（tα/2,9）
0.10	1.383	1.833
0.05	1.833	2.262
0.025	2.262	2.821
0.01	2.821	3.250
0.005	3.250	3.690
0.001	3.690	4.297

单侧临界值（tα,9）：用于单侧t检验。当你只关心一种方向的显著性时使用，如检验某值是否显著大于或小于某个参考值。
双侧临界值（tα/2,9）：用于双侧t检验。当你关心双向的显著性时使用，如检验某值是否显著不同于某个参考值（不论是大于还是小于）。

在这里我们只关注样本均值是否显著不同于总体均值，因此采用双边检验。

我们假设显著性水平为 $0.05$ ，已知自由度为 $9$ ，那么对应的临界值是 $2.262$ 。

得出结论：

由于计算出的t统计量的绝对值 $0.874$ 小于 $2.262$ ，因此我们不可以拒绝原假设，即样本均值与总体是显著相同的。

2.2.2 独立样本t检验（Independent Samples t-Test）

独立样本t检验用于比较两个独立样本的均值是否显著不同。

2.2.2.1 当两样本方差相等时

公式：

$Var(\overline{X}-\overline{Y}) = \frac{s_p^2}{n}+\frac{s_p^2}{m}$

$t=\frac{(\overline{X}-\overline{Y})}{\sqrt{Var(\overline{X}-\overline{Y})}}=\frac{(\overline{X}-\overline{Y})}{\sqrt{\frac{s_p^2}{n}+\frac{s_p^2}{m}}}$

$df = m + n - 2$

其中， $\overline{X}$ 和 $\overline{Y}$ 是样本均值， $n$ 和 $m$ 是样本量， $s_p$ 是加权平均标准差，其计算公式如下：
$s_p = \sqrt{\frac{(n-1)s_X^2+(m-1)s_Y^2}{m+n-2}}$
其中， $s_X^2$ 和 $s_Y^2$ 是样本方差。

例子：假设我们正在研究两种不同的教学方法对学生考试成绩的影响。我们随机抽取了两个独立的学生组，分别使用不同的教学方法，并在学期结束时对他们进行相同的考试。数据如下：

教学方法A组（样本X）：学生考试成绩：[85, 90, 78, 92, 88]
教学方法B组（样本Y）：学生考试成绩：[80, 85, 79, 84, 83]

我们可以通过独立样本t检验来判断这两种教学方法是否对学生的考试成绩有显著不同的影响。

首先提出假设：

零假设( $H_0$ )：教学方法A和B对考试成绩没有显著不同的影响
备择假设( $H_1$ )：教学方法A和B对考试成绩有显著不同的影响

然后计算样本均值和标准差：

教学方法A组：样本均值 $\overline{X}=86.6$ ，样本方差 $s_X^2=29.8$
教学方法B组：样本均值 $\overline{Y}=82.2$ ，样本方差 $s_Y^2=6.71$

计算 t 统计量：

$s_p^2 = \frac{29.8}{5} + \frac{6.71}{5} = 7.302, \ t = \frac{86.6-82.2}{\sqrt{7.302}} \approx 1.629$

查表得临界值：

自由度 $df = m + n - 2 = 5 + 5 - 2 = 8$ ，设定显著性水平（通常为0.05），对于双尾检验，显著性水平为0.05意味着每尾的显著性水平是0.025。

查表得对应临界值为 $2.306$
得出结论：

由于 $∣1.629∣ < 2.306$ ，故我们不能拒绝原假设，表明在显著性水平为0.05的情况下，这两种教学方法对学生考试成绩的影响没有显著差异。

2.2.2.2 当两样本方差不相等时

公式：

$Var(\overline{X}-\overline{Y}) = \frac{s_X^2}{n}+\frac{s_Y^2}{m}$

$t=\frac{(\overline{X}-\overline{Y})}{\sqrt{Var(\overline{X}-\overline{Y})}}=\frac{(\overline{X}-\overline{Y})}{\sqrt{\frac{s_X^2}{n}+\frac{s_Y^2}{m}}}$

$df=\frac{(s_X^2/n+s_Y^2/m)^2}{\frac{(s_X^2/n)^2}{n-1} + \frac{(s_Y^2/m)^2}{m-1}}$

其中， $s_X^2$ 和 $s_Y^2$ 是样本方差， $\overline{X}$ 和 $\overline{Y}$ 是样本均值， $n$ 和 $m$ 是样本量

例子：假设我们正在研究两种不同的教学方法对学生考试成绩的影响。我们随机抽取了两个独立的学生组，分别使用不同的教学方法，并在学期结束时对他们进行相同的考试。数据如下：

教学方法A组（样本X）：学生考试成绩：[85, 90, 78, 92, 88]
教学方法B组（样本Y）：学生考试成绩：[80, 85, 79, 84, 83]

我们可以通过独立样本t检验来判断这两种教学方法是否对学生的考试成绩有显著不同的影响。

首先提出假设：

零假设( $H_0$ )：教学方法A和B对考试成绩没有显著不同的影响
备择假设( $H_1$ )：教学方法A和B对考试成绩有显著不同的影响

然后计算样本均值和标准差：

教学方法A组：样本均值 $\overline{X}=86.6$ ，样本方差 $s_X^2=29.8$
教学方法B组：样本均值 $\overline{Y}=82.2$ ，样本方差 $s_Y^2=6.71$

计算 t 统计量：

$\frac{86.6-82.2}{\sqrt{\frac{s_X^2}{5}+\frac{s_Y^2}{5}}} \approx 2.32$

查表得临界值：

自由度（四舍五入）：
$df=\frac{(s_X^2/n+s_Y^2/m)^2}{\frac{(s_X^2/n)^2}{n-1} + \frac{(s_Y^2/m)^2}{m-1}}=\frac{(29.8/5+6.71/5)^2}{\frac{(29.8/5)^2}{4} + \frac{(6.71/5)^2}{4}} \approx 5.714 \approx 6$

设定显著性水平（通常为0.05），对于双尾检验，显著性水平为0.05意味着每尾的显著性水平是0.025。

查表得对应临界值为 $2.447$
得出结论：

由于 $∣2.32∣ < 2.447$ ，故我们不能拒绝原假设，表明在显著性水平为0.05的情况下，这两种教学方法对学生考试成绩的影响没有显著差异。

2.2.3 配对样本t检验（Paired Samples t-Test）

配对样本t检验用于比较成对数据（即两组数据的量相同，n=m）的均值差异，如同一组人在不同时间或不同条件下的测试成绩。

公式：

$Var(\overline{X}-\overline{Y}) = \frac{s_d^2}{n}$

$t=\frac{(\overline{X}-\overline{Y})}{\sqrt{Var(\overline{X}-\overline{Y})}}=\frac{(\overline{X}-\overline{Y})}{\sqrt{\frac{s_d^2}{n}}}$

其中， $\overline{X}$ 和 $\overline{Y}$ 是样本均值， $n$ 和 $m$ 是样本量， $s_d$ 是两个样本差值的标准差，其计算公式如下：
$s_d = \sqrt{\frac{\sum{(d_i - \overline{d})^2}}{n-1}}$
其中， $d_i$ 是第 $i$ 对样本的差值， $\overline{d}$ 是样本的差值的均值。
$df = n - 1$

例子：假设我们想要比较某药物在治疗前后对血压的影响。我们从 5 个患者那里收集了数据，每个患者在服药前和服药后的血压如下：

患者	治疗前血压	治疗后血压
1	150	140
2	160	155
3	170	165
4	155	150
5	165	160

我们可以使用配对样本 t 检验来确定药物是否显著降低了血压。

计算差值

首先，我们计算每对样本的差值：

患者	治疗前血压	治疗后血压	差值 (治疗后 - 治疗前)
1	150	140	-10
2	160	155	-5
3	170	165	-5
4	155	150	-5
5	165	160	-5

计算差值的平均值和标准差

差值的平均值 (Mean) 为：
$\overline{X} - \overline{Y} = \bar{d} = \frac{-10 + -5 + -5 + -5 + -5}{5} = -6$

差值的方差为：
$s_d^2 = \frac{(-10+6)^2 + (-5+6)^2 + (-5+6)^2 + (-5+6)^2 + (-5+6)^2}{5-1} = \frac{16}{4} = 4$
计算 t 值

$\frac{(\overline{X}-\overline{Y})}{\sqrt{\frac{s_d^2}{n}}}=\frac{-6} {\sqrt{\frac{4}{5}}} \approx -6.71$

查找 t 分布表中的临界值

对于自由度为 $n - 1 = 4$ 和显著性水平 $\alpha = 0.05$ ，单尾检验的临界值为 $2.132$ 。
得出结论

因为 $∣ t ∣ = 6.71 > 2.132$ ，所以我们可以拒绝原假设，认为药物显著降低了血压。

2.3 F 检验

F检验是一种用于比较两个样本方差的方法，通常用于评估两个总体是否具有相同的方差。在统计分析中，F检验广泛用于方差分析（ANOVA），比较多个样本均值的方差。

F检验的统计量 $F$ 的计算公式为：

$\frac{s_1^2}{s_2^2}$

其中：

$s_1^2$ 是第一个样本的方差。
$s_2^2$ 是第二个样本的方差。

F统计量服从自由度为 $n_1-1, n_2-1)$ 的F分布，其中 $n_1$ 和 $n_2$ 分别是两个样本的大小。

F检验步骤

假设检验：
- 原假设 ( H_0 )：两个总体的方差相等，即 $\sigma_1^2 = \sigma_2^2$ 。
- 备择假设 ( H_1 )：两个总体的方差不相等，即 $\sigma_1^2 \neq \sigma_2^2$ 。
计算F统计量：
- 计算两个样本的方差 $s_1^2$ 和 $s_2^2$ 。
- 计算F统计量 $\frac{s_1^2}{s_2^2}$ 。
查找临界值：
- 根据给定的显著性水平（如 $\alpha = 0.05$ ）和样本大小，从F分布表中查找对应的临界值。
比较F统计量与临界值：
- 如果 $F$ 大于临界值，则拒绝原假设，认为两个总体方差不相等。
- 如果 $F$ 小于或等于临界值，则不拒绝原假设，认为两个总体方差相等。

例子：假设我们有两个样本，分别代表两个不同教学方法下的学生成绩。我们想比较这两个教学方法是否在成绩上有不同的方差。

样本1（教学方法A）： $[85, 90, 88, 92, 87]$
样本2（教学方法B）： $[78, 85, 82, 88, 80]$

计算两个样本的方差：
- 样本1方差 $s_1^2 = 6.7$
- 样本2方差 $s_2^2 = 14.5$
计算F统计量：

$\frac{6.7}{14.5} = 0.46$

查找临界值：
- 自由度 $(4, 4)$ ，显著性水平 $\alpha = 0.05$ 对应的临界值（查表）约为 $6.39$ 。
比较F统计量与临界值：
- $0.46$ 小于 $6.39$ ，因此不拒绝原假设。

结论：在显著性水平 $\alpha = 0.05$ 下，我们没有足够的证据表明两个教学方法的方差不同。

2.4 方差分析（参数检验）

方差分析（Analysis of Variance, ANOVA）是一种统计方法，用于比较三个或三个以上样本均值之间的差异是否显著。方差分析主要用于确定因变量在不同处理组间的变异是否显著大于组内的变异，从而推断组间均值是否存在显著差异。

公式

单因素方差分析的基本公式包括：

总变差（Total Sum of Squares, SST）：

$\sum_{i=1}^{n} (X_i - \bar{X})^2$

其中， $X_i$ 是观测值， $\bar{X}$ 是总体均值， $n$ 是观测值的总数。

组间变差（Sum of Squares Between Groups, SSB）：

$\sum_{j=1}^{k} n_j (\bar{X}_j - \bar{X})^2$

其中， $\bar{X}_j$ 是第 $j$ 组的均值， $n_j$ 是第 $j$ 组的观测值数目， $k$ 是组的总数。

组内变差（Sum of Squares Within Groups, SSW）：

$\sum_{j=1}^{k} \sum_{i=1}^{n_j} (X_{ij} - \bar{X}_j)^2$

其中， $X_{ij}$ 是第 $j$ 组中的第 $i$ 个观测值， $\bar{X}_j$ 是第 $j$ 组的均值。

均方（Mean Square, MS）：

组间均方 $MSB$ ：

$\frac{SSB}{k-1}$

组内均方 $MS W$ ：

$\frac{SSW}{n-k}$

F统计量：

$\frac{MSB}{MSW}$

例子：假设我们有三个不同教学方法下的学生成绩，我们想比较这三个教学方法是否在成绩上有显著差异。

教学方法A： $[85, 90, 88, 92, 87]$
教学方法B： $[78, 85, 82, 88, 80]$
教学方法C： $[90, 93, 91, 95, 89]$

计算每组的均值：

方法A均值 $\bar{X}_A = 88.4$
方法B均值 $\bar{X}_B = 82.6$
方法C均值 $\bar{X}_C = 91.6$

总均值 $\bar{X} = 87.53$

计算组间变差（SSB）：

$SSB = 5(88.4 - 87.53)^2 + 5(82.6 - 87.53)^2 + 5(91.6 - 87.53)^2 = 115.93$

计算组内变差（SSW）：

$SSW_A = (85-88.4)^2 + (90-88.4)^2 + (88-88.4)^2 + (92-88.4)^2 + (87-88.4)^2 = 30.8$
$SSW_B = (78-82.6)^2 + (85-82.6)^2 + (82-82.6)^2 + (88-82.6)^2 + (80-82.6)^2 = 60.8$
$SSW_C = (90-91.6)^2 + (93-91.6)^2 + (91-91.6)^2 + (95-91.6)^2 + (89-91.6)^2 = 27.2$
$SSW = SSW_A + SSW_B + SSW_C = 118.8$