单样本t检验之汽车引擎排放是否达标

通过对10台引擎排放水平的描述统计分析,得出样本平均值为17.17ppm,标准差为2.98ppm。在推论统计分析中,进行了单样本t检验,得出t值为-3.00,P值为0.0075,拒绝零假设,表明引擎排放满足20ppm以下的新标准。置信区间为95%,范围在15.04到19.30ppm之间。效应量d为-0.95,显示效果显著。
摘要由CSDN通过智能技术生成

项目背景和目的

根据政府发布的新排放要求,引擎排放平均值要低于20ppm,(ppm是英文百万分之一的缩写,按照环保要求汽车尾气中碳氢化合物要低于20ppm)。

公司制造出10台引擎供测试使用,每一台的排放水平如下:

15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

根据样本判断排放是否达到标准

一、描述统计分析

# 导入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
# 样本数据集
dataSampleSer=pd.Series([15.6, 16.2, 22.5, 20.5, 16.4, 19.4, 16.6, 17.9, 12.7, 13.9])
# 样本平均值
sample_mean=dataSampleSer.mean()

样本标准差:

# 样本标准差 
# DataFrame.std(axis=None, skipna=True, level=None, ddof=1, numeric_only=None, **kwargs) 自由度ddof默认为1,计算中默认N - ddof,N为样本数量
sample_std=dataSampleSer.std()
print('样本平均值%.2fppm,样本标准差%.2fppm'%(sample_mean,sample_std))
样本平均值17.17ppm,样本标准差2.98ppm

二、推论统计分析

(一)假设检验

1、提出假设

零假设:排放未达到标准,即μ>=20ppm;

备择假设:排放达到标准,即μ<20ppm。

2、检验类型

因只有一个样本,故进行单样本检验

3、抽样分布类型

样本量n=10,属于小样本,整体方差未知。下面查看抽样分布是否近似于正态分布,判断是否符合t分布

import seaborn as sns

sns.displot(dataSampleSer,kde=True,bins=4)
plt.title('样本数据集分布')
plt.show()


观察样本数据集分布图,样本数据集近似于正态分布,符合t分布。自由度df=n-1=9

4、检验方向

要验证μ<=20ppm,单尾检验中的左侧检验。

5、计算P值
# 总体平均值
pop_mean=20

t,p_two=stats.ttest_1samp(dataSampleSer,pop_mean)
print('t值=%.2f,单尾检验的P值=%.4f'%(t,p_two/2))
t值=-3.00,单尾检验的P值=0.0075
'''手动'''
# 样本大小
n=10
# 样本平均值sample_mean、总体平均值pop_mean
# 检验统计量
t=(sample_mean-pop_mean)/(sample_std/np.sqrt(n))
t
# 计算P值:https://www.graphpad.com/quickcalcs 辅助计算P值 p=0.015
-3.001649525885985
6、置信水平
# 采用95%作为其置信水平,α=5%
alpha=0.05
7、判断结果
df=n-1
print('独立样本t(%d)=%.2f,p=%.4f(α=0.05),单尾检验(左尾)'%(df,t,p_two/2))
独立样本t(9)=-3.00,p=0.0075(α=0.05),单尾检验(左尾)

P值远远小于α,说明统计结果显著,拒绝零假设,即汽车引擎排放满足标准。

(二)置信区间

此处是单样本检验中是单个平均值的置信区间

'''
自由度df=n-1=9
置信水平:95%
查t表得t=2.262
'''
t_ci=2.262
# 标准误差
se=stats.sem(dataSampleSer)
# 置信区间上限和下限
a=sample_mean-t_ci*se
b=sample_mean+t_ci*se
print(se,a,b)
0.9428149341201592 15.037352619020197 19.3026473809798
print('单个平均值的置信区间,95%%置信水平CI=(%.2f,%.2f)'%(a,b))
单个平均值的置信区间,95%置信水平CI=(15.04,19.30)

(三)效应量(effect size)

效应量是指由于因素引起的差别,是衡量处理效应大小的指标。与显著性检验不同,这些指标不受样本容量影响。

d=(sample_mean-pop_mean)/sample_std

r2=t**2/(t**2+df)
print('d=%.2f,R2=%.2f'%(d,r2))
d=-0.95,R2=0.50

三、总结

1、描述统计分析

样本平均值17.17ppm,样本标准差2.98ppm

2、推论统计分析

1)假设检验 
独立样本t(9)=-3.00,p=0.0075(α=0.05),单尾检验(左尾)
说明统计结果显著,符合排放标准
2)置信区间
单个平均值的置信区间,95%置信水平CI=(15.04,19.30)
3)效应量
d=-0.95
效果显著
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值