python Z检验

一.引言
  在不同公司各部门,往往有着一定的统计机制,比如平常上班时的打卡考勤,再比如工厂每天加工产品的数量等等,这些数据往往都有较为明确的记录,一方面是为了留存备查,另一方面对日常工作具有直接性的指导意义。
  这种指导性意义体现在哪里呢?Z检验就是个不错的例子:某工厂每天都会统计生产的产品数量,测出每天生产的平均值为100,标准差为7.9,默认数据服从正态分布,现抽取最近9天的生产数据,分别是:98,86,113,96,105,93,92,97,91.

import numpy as np
sample = np.array([98,86,113,96,105,93,92,97,91])
sample_mean = sample.mean()
print(sample_mean)

96.77777777777777

结果是96.8,比总体的平均值100要少了3,老板看了很生气认为存在员工偷懒和管理疏忽的情况,但是生产部门也会找理由:总体平均值是100,但是每天的生产量都会有误差,这几天的平均值低不能代表什么啊!
  那么,到底谁的说法更加可靠呢?在这里,我们引入Z检验,实现用数据来说话。

二.Z检验原理
Z检验需要满足以下几个条件:
1.总体是正态分布
2.样本数量足够大(一般大于30即可)
3.总体方差(或标准差)已知
其中,条件1和条件3只需满足一个即可

做Z检验,首先要计算出Z值,Z值的计算服从一下的公式:

`X:样本均值
μ0:总体均值
S:总体标准差
n:样本容量
  其中,S除以根号n就是标准误差,X-μ0就是总体均值与样本均值之间的差距,因而Z就是求总体均值与样本均值之差相当于几个标准误差。
  通过Z,我们就能够求出支持假设的P-Value,也就是P值,以下我们介绍一下假设和P值的概念。

三.假设
假设分为原假设备择假设,原假设与备择假设是对立的,我们一般将原假设用H0来表示,将备择假设用H1来表示,举个例子:
如果假设是员工没有偷懒,那么备择假设就是员工偷懒了;如果假设是某一数据集的某指标的均值为50,那么备择假设就是该数据集该指标的均值不是50
假设其实运用的就是数学上的反证法,先假设原假设是成立的,通过一系列计算得出结论,从而支持原假设或者支持备择假设。

四.P-Value
P-Value也称为P值,是支持原假设的概率。
对于P值,我们提供相应的阈值α,只要P值能够达到相应的阈值α,我们就有理由支持原假设,或者说没有充分的理由否定原假设。
通常,我们认定α为0.05,这是由于标准正太分布的特性决定的,在标准正太分布中,置信区间在平均值±1.96*σ的范围内拥有95%的置信度,而5%就由100%-95%而得来。

因此在此例子当中,我们的原假设为:工作效率正常
           备择假设为:工作效率异常。

五.代码实现

import numpy as np
from scipy import stats
# 总体均值为100
mean = 100
# 总体方差为7.6
std = 7.6
# 形成样本
sample = np.array([98,86,113,96,105,93,92,97,91])
# 计算样本均值
sample_mean = sample.mean()
# 计算Z值
Z = (sample_mean - mean) / (std / np.sqrt(len(sample)))
# 通过Z计算P值
P = 2 * stats.norm.sf(abs(Z))
print(P)

0.2033980539504644

显然,P值远远超过了0.05的阈值,所以我们就能够支持我们的原假设,也就是工作效率正常了,我们没有充足的理由证明原假设不成立,因此这几天的工作效率维持在正常水平,老板没有理由谴责员工和管理层。

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值