Z检验和t检验

不易撞的网名

于 2024-06-07 16:00:00 发布

阅读量1.1k

点赞数 13

分类专栏：机器学习文章标签： Z检验 t检验概率检验

本文链接：https://blog.csdn.net/weixin_50569789/article/details/139527546

版权

机器学习专栏收录该内容

58 篇文章 0 订阅

订阅专栏

文章目录

Z检验
- 例子
t检验

Z检验

Z检验（Z Test）是一种统计学中的假设检验方法，主要用于在大样本情况下（通常样本容量大于30）评估样本平均数与已知总体平均数之间是否存在显著差异，或者比较两个独立大样本的平均数是否存在显著差异。
这种检验基于这样的前提：样本数据来自于一个正态分布的总体，并且总体的标准差是已知的或者是可以根据样本数据合理估计的。

Z检验的核心在于计算一个统计量Z值，这个Z值表示了观察到的样本均值与假设的总体均值之间的偏离程度，以标准差为单位。计算公式如下：

$\frac{\bar{X} - \mu_0}{(\sigma/\sqrt{n})}$

其中：

$\bar{X} 是样本平均数$
$\mu_0 是假设的总体平均数$
$\sigma 是总体标准差$
$n 是样本容量$

计算得到的Z值随后会被与标准正态分布表进行比较，以确定这个差异发生的概率（P值），进而决定是否拒绝原假设（通常是认为两者的均值没有差异）。
如果P值小于事先设定的显著性水平（如0.05），那么就认为样本数据支持拒绝原假设，即样本均值与总体均值或两个样本的平均数之间存在显著差异。

例子

数据集

首先，我们假设超市收集到的30块巧克力的重量数据如下（单位：克）：

巧克力编号	重量
1	98
2	102
3	97
…	…
29	101
30	103

为了简化，我将直接给出这些数据的统计摘要，而不是列出所有数据点：

$(\bar{x}) = 99.5克$
样本标准差 (s) = 1.2克
样本大小 (n) = 30

Z检验步骤

步骤1: 确定零假设和备择假设

$零假设H_0: \mu = 100 克（即巧克力的平均重量为100克）$
$备择假设H_1: \mu \neq 100克（即巧克力的平均重量不等于100克，这是一个双侧检验）$

步骤2: 计算Z统计量

$\frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}$

$这里，\mu_0 = 100 克是假设的总体均值，\sigma是总体标准差，但由于通常未知，且样本量较大，我们可以使用样本标准差 s作为估计，并且由于生产过程控制较好，假设 \sigma已知或接近 s，这里直接用 s 代替。$
因此

$\frac{99.5 - 100}{1.2 / \sqrt{30}} \approx \frac{-0.5}{0.1732} \approx -2.88$

步骤3: 查Z表确定P值

接下来，我们需要查找标准正态分布表或使用统计软件/计算器找到Z值为-2.88时对应的累积概率，从而得到右侧尾部的概率，因为是双侧检验，所以P值应该是两侧之和的一半。

从标准正态分布表中查得，对于Z=-2.88，右侧尾部的概率约为0.0019。因此，双侧P值为 $\times 0.0019 = 0.0038$

步骤4: 做出决策

一般而言，如果P值小于显著性水平（例如0.05），我们将拒绝零假设。在这个例子中，P值=0.0038远小于0.05，所以我们有足够的证据拒绝零假设。

结论

基于这个Z检验，我们可以得出结论，超市收集到的巧克力样本平均重量与厂家声称的100克存在显著差异（P < 0.05）。这意味着根据样本数据，我们有理由相信这种巧克力的平均重量不等于100克。

t检验

t检验，又称为Student’s t检验，是一种在统计学中广泛使用的假设检验方法，主要用来判断两组数据的平均值（均值）是否存在显著性差异。
它适用于样本数量相对较小（通常n<30，尽管这个界限不是绝对的）,并且总体标准差未知的情况。t检验基于t分布，这是一种在小样本情况下对正态分布数据进行推断的连续概率分布。

1. 单样本t检验

前提条件：数据应近似正态分布。

零假设（H0）：样本均值μ等于一个已知的总体均值μ₀。

公式： $\frac{\bar{x} - \mu_0}{\left( \frac{s}{\sqrt{n}} \right)}$

$\bar{x} 是样本均值$
$\mu_0 是假设的总体均值$
$s 是样本标准偏差$
$n 是样本容量$

决策：将计算出的t值与t分布表中的临界值比较，或者计算p值，如果p值小于显著性水平（如α=0.05），则拒绝H0，认为样本均值与总体均值之间存在显著差异。

2. 独立样本t检验（两样本t检验）

前提条件：两组数据独立且各自来自正态分布的总体，且两组的方差相等（同方差性）或不等（异方差性）。

零假设（H0）：两组样本的总体均值相等（μ₁ = μ₂）。

公式：取决于是否满足方差齐性。

方差相等时（ pooled variance ）:
$\frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{\sqrt{\left(\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}\right)}}$

$其中，\bar{x}_1, \bar{x}_2 分别为两组样本均值，s^2_1, s^2_2 分别为两组样本方差，n_1, n_2分别为两组样本容量。$
方差不等时（Welch’s t-test）:
公式较为复杂，通常直接使用统计软件计算。

决策：同样通过比较t值与临界值或计算得到的p值来决定是否拒绝零假设。

3. 配对样本t检验

前提条件：配对数据需满足正态分布，且差值也应近似正态分布。

零假设（H0）：配对样本的总体均差为零（即处理前后的差异不显著）。

公式：
$\frac{\bar{d} - \delta}{\left( \frac{s_d}{\sqrt{n}} \right)}$

$\bar{d} 是差值的样本均值$
$\delta 是零假设下的总体均差（通常设为0）$
$s_d 是差值的样本标准差$
$n 是配对数（每对数据视为一次观测）$

决策：与上述相同，依据t值或p值决定是否拒绝H0。

例子

为了便于理解，我们将使用假定的数据集，并假设我们正在使用α=0.05作为显著性水平。

1. 单样本t检验示例

问题：研究者想知道某工厂生产的一批产品的平均重量是否与规定的250克一致。 $抽取了n=15个产品的样本，得到的平均重量为\bar{x}=248克，样本标准差为s=3克。$

步骤：

提出假设：
- $\mu = 250 克$
- $\mu \neq 250克$
计算t统计量：
$\frac{\bar{x} - \mu_0}{\left( \frac{s}{\sqrt{n}} \right)} = \frac{248 - 250}{\left( \frac{3}{\sqrt{15}} \right)} \approx -1.633$
查表或计算p值：使用t分布表或统计软件，找到自由度(df=n-1=14)，对应双侧检验的t值约为-1.761（对于α=0.05）。
决策：因为|t|=|-1.633| < |-1.761|，我们不能拒绝H0，意味着没有足够证据表明这批产品的平均重量与250克有显著差异。

2. 独立样本t检验示例（假设方差相等）

问题：比较两种教学方法对学生考试成绩的影响。
方法A的样本（n1=20）平均分是85，标准差是5；
方法B的样本（n2=25）平均分是80，标准差也是5。

步骤：

提出假设：
- $\mu_1 = \mu_2（两组平均分无差异）$
- $\mu_1 \neq \mu_2$
计算t统计量：
$\frac{(\bar{x}_1 - \bar{x}_2) - 0}{\sqrt{\left(\frac{s^2_1}{n_1} + \frac{s^2_2}{n_2}\right)}} = \frac{(85-80)}{\sqrt{\left(\frac{5^2}{20} + \frac{5^2}{25}\right)}} \approx 2.92$
查表或计算p值：自由度为n1+n2-2=43，查t分布表或用软件得到对应双侧检验的临界值约为±2.015（α=0.05）。
决策：因为|t|=2.92 > 2.015，我们拒绝H0，认为两种教学方法对学生成绩的影响有显著差异。

3. 配对样本t检验示例

问题：研究一种新药的效果，测量了10名患者治疗前后的血压变化。治疗前平均血压为140mmHg，治疗后为130mmHg，差值的样本标准差为4mmHg。

步骤：

提出假设：
- $差值的总体均值\delta = 0（治疗前后血压无变化）$
- $\delta \neq 0$
计算t统计量：
$\frac{\bar{d} - \delta}{\left( \frac{s_d}{\sqrt{n}} \right)} = \frac{(140-130)}{\left( \frac{4}{\sqrt{10}} \right)} = 7.07$
查表或计算p值：自由度为n-1=9，查表或计算得到对应的双侧检验临界值远小于7.07。
决策：因为t值非常大，相应的p值会极小，远远小于α=0.05，我们强烈拒绝H0，表明治疗确实引起了血压的显著下降。

请注意，这些例子中的计算简化了许多细节，实际应用中应使用精确数值进行计算，并考虑数据是否满足t检验的前提条件。

不易撞的网名

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
Z检验和t检验

接下来，我们需要查找标准正态分布表或使用统计软件/计算器找到Z值为-2.88时对应的累积概率，从而得到右侧尾部的概率，因为是双侧检验，所以P值应该是两侧之和的一半。：将计算出的t值与t分布表中的临界值比较，或者计算p值，如果p值小于显著性水平（如α=0.05），则拒绝H0，认为样本均值与总体均值之间存在显著差异。在这个例子中，P值=0.0038远小于0.05，所以我们有足够的证据拒绝零假设。：因为t值非常大，相应的p值会极小，远远小于α=0.05，我们强烈拒绝H0，表明治疗确实引起了血压的显著下降。
复制链接

扫一扫