python Z检验

最新推荐文章于 2024-04-08 16:23:08 发布

数据洪流

最新推荐文章于 2024-04-08 16:23:08 发布

阅读量4.1k

点赞数

分类专栏： python数据科学文章标签： python 数据分析机器学习

本文链接：https://blog.csdn.net/weixin_45891155/article/details/110730777

版权

python数据科学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一.引言
　　在不同公司各部门,往往有着一定的统计机制,比如平常上班时的打卡考勤,再比如工厂每天加工产品的数量等等,这些数据往往都有较为明确的记录,一方面是为了留存备查,另一方面对日常工作具有直接性的指导意义。
　　这种指导性意义体现在哪里呢?Z检验就是个不错的例子:某工厂每天都会统计生产的产品数量,测出每天生产的平均值为100,标准差为7.9,默认数据服从正态分布,现抽取最近9天的生产数据,分别是:98,86,113,96,105,93,92,97,91.

import numpy as np
sample = np.array([98,86,113,96,105,93,92,97,91])
sample_mean = sample.mean()
print(sample_mean)

96.77777777777777

结果是96.8,比总体的平均值100要少了3,老板看了很生气认为存在员工偷懒和管理疏忽的情况,但是生产部门也会找理由:总体平均值是100,但是每天的生产量都会有误差,这几天的平均值低不能代表什么啊!
　　那么,到底谁的说法更加可靠呢?在这里,我们引入Z检验,实现用数据来说话。

二.Z检验原理
Z检验需要满足以下几个条件:
1.总体是正态分布
2.样本数量足够大(一般大于30即可)
3.总体方差(或标准差)已知
其中,条件1和条件3只需满足一个即可

做Z检验,首先要计算出Z值,Z值的计算服从一下的公式:

`X:样本均值
μ0:总体均值
S:总体标准差
n:样本容量
　　其中,S除以根号n就是标准误差,X-μ0就是总体均值与样本均值之间的差距,因而Z就是求总体均值与样本均值之差相当于几个标准误差。
　　通过Z,我们就能够求出支持假设的P-Value,也就是P值,以下我们介绍一下假设和P值的概念。

三.假设
假设分为原假设和备择假设,原假设与备择假设是对立的,我们一般将原假设用H0来表示,将备择假设用H1来表示,举个例子:
如果假设是员工没有偷懒,那么备择假设就是员工偷懒了;如果假设是某一数据集的某指标的均值为50,那么备择假设就是该数据集该指标的均值不是50
假设其实运用的就是数学上的反证法,先假设原假设是成立的,通过一系列计算得出结论,从而支持原假设或者支持备择假设。

四.P-Value
P-Value也称为P值,是支持原假设的概率。
对于P值,我们提供相应的阈值α,只要P值能够达到相应的阈值α,我们就有理由支持原假设,或者说没有充分的理由否定原假设。
通常,我们认定α为0.05,这是由于标准正太分布的特性决定的,在标准正太分布中,置信区间在平均值±1.96*σ的范围内拥有95%的置信度,而5%就由100%-95%而得来。

因此在此例子当中,我们的原假设为:工作效率正常
　　　　　　　　　　　备择假设为:工作效率异常。

五.代码实现

import numpy as np
from scipy import stats
# 总体均值为100
mean = 100
# 总体方差为7.6
std = 7.6
# 形成样本
sample = np.array([98,86,113,96,105,93,92,97,91])
# 计算样本均值
sample_mean = sample.mean()
# 计算Z值
Z = (sample_mean - mean) / (std / np.sqrt(len(sample)))
# 通过Z计算P值
P = 2 * stats.norm.sf(abs(Z))
print(P)

0.2033980539504644

显然,P值远远超过了0.05的阈值,所以我们就能够支持我们的原假设,也就是工作效率正常了,我们没有充足的理由证明原假设不成立,因此这几天的工作效率维持在正常水平,老板没有理由谴责员工和管理层。

数据洪流

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
python Z检验

一.引言在不同公司各部门,往往有着一定的统计机制,比如平常上班时的打卡考勤,再比如工厂每天加工产品的数量等等,这些数据往往都有较为明确的记录,一方面是为了留存备查,另一方面对日常工作具有直接性的指导意义这种指导性意义体现在哪里呢?Z检验就是个不错的例子:某工厂每天都会统计生产的产品数量,测出每天生产的平均值为100,标准差为7.9,默认数据服从正态分布,现抽取最近9天的生产数据,分别是:98,86,113,96,105,93,92,97,91.import numpy as npsample =
复制链接

扫一扫