梳理思路:检验统计量公式→样本与样本均值的正态性→揭示显著性检验的正态原理→标态与普态的关系→正态性要求
1. 检验统计量公式
- 单样本检验的检验统计量公式原理
单样本检验,是检验样本是否来自总体,因此是以样本均值与总体均值的差异(即x-μ),对照总体正态,计算检验统计量。
为什么分母部分是 σ 2 n \sqrt{\frac{σ²}{n}} nσ2呢!
很纠结,要不要讲呢,讲起来可能真又臭又长,但是不讲,感觉失去了灵魂。
失去灵魂,我所有的笔记,就变为了描绘躯壳,套壳即可用!
但没有灵魂,可不就没意思了嘛!
2. 样本与样本均值的正态性
通常在假设检验中,我们通常都是抽取多个数据进行分析检验(因为抽取单个数据,随机性太大,分析结果不太可靠)。
而抽取多个数据,实际就是抽样。
所有可能的样本均值,实际等于总体均值:例如抽取n=30的样本,穷尽所有n=30的样本组合,这些样本组合的均值最终等于总体均值。
那这些样本均值的方差,是否等于总体方差呢???
——这是我非常困惑的!如果能解决这个困惑,想必我会思路更清晰
最终找到:所有样本均值的方差 =
总体方差
n
\frac{总体方差}{n}
n总体方差,证明如下
到这里!!!!!思路异常清晰了!!!!!啊!!!!
我终于可以大声的说,根据【中心极限定理】是可以在总体不服从正态分布的情况下,进行显著性检验的!!!!
天知道,我是一边写,一边才捋顺我之前的困惑!!!!!
我要推翻我之前对于检验统计量公式的任何讲解
3. 揭示正态性的检验原理
首先,显著性检验,是基于样本均值服从正态分布的前提下进行的!
不是基于总体服从正态分布!
检验统计量公式的三座数学基石:
1)所有可能的样本均值,实际等于总体均值【已证得】
2)所有可能的样本均值方差,实际等于
总体方差
n
\frac{总体方差}{n}
n总体方差【已证得】
3)中心极限定理:当样本量n较大时,所有可能的样本均值,服从正态分布。【研究表明,可证,但有空再说】
实际上的显著性检验,就是样本均值vs样本均值总体(即所有可能的样本均值组合)的检验。
样本均值总体:根据【基石3-中心极限定理】,明确服从正态分布;
样本均值总体:根据【基石1】,明确 样本均值的总体均值 为 样本的总体均值 μ
样本均值总体:根据【基石2】,明确 样本均值的总体方差 为 样本的总体方差σ² 的
1
n
\frac{1}{n}
n1,即
σ
2
n
\frac{σ²}{n}
nσ2
这里要区分,【样本均值的总体】,与【样本的总体】是不一样的:
-样本均值的总体:由所有可能的样本均值,组合成的总体
-样本的总体:由所有可能的样本数据,组合成的总体
因此,样本均值,服从N(μ, σ 2 n \frac{σ²}{n} nσ2)的样本均值总体的正态分布。
那么,单样本检验:实际就是单个样本均值 vs 样本均值总体的检验。
至此,一切豁然开朗!!!!!!!!!
太开朗了我的天
普通正态分布N(μ, σ 2 n \frac{σ²}{n} nσ2)究竟是怎样计算出概率 P 值,
这里,一定要讲解,标准正态分布与普通正态分布之间的关系!!
重点:标准正态分布与普通正态分布
标准正态分布 N(0,1),对应的概率密度函数为:
对标准正态分布的概率密度函数进行积分,求出概率 P 值(积分上下限是标准正态分布下的检验统计量)。
因此,普通的正态分布,其实是可以转化为标准正态分布,再进行积分计算出 P 值的(积分上下限是标准正态分布下的检验统计量)。
普通正态分布的概率密度函数如下:
因此,检验统计量的存在,主要是将正态分布中的概率密度函数的 x,换为普通正态分布下求得的检验统计量=均值差/标准差
所以,检验统计量,应该是普通正态分布下的 均值差/标准差,即
x
−
μ
σ
\frac{x-μ}{σ}
σx−μ,才能根据标准正态分布,求得概率 P 值。
之前,我有个非常巨大的困惑
:为什么在 Z\T检验中,检验统计量的公式是
x
−
μ
σ
/
n
\frac{x-μ}{σ/\sqrt{n}}
σ/nx−μ,这样的检验统计量,根本没法按照标准正态分布的概率密度函数求概率 P 啊!
现在,我曾经的困惑终于得到了解释!!!
原因就是,Z\T检验的基础:样本均值,服从N(μ, σ 2 n \frac{σ²}{n} nσ2)的正态总体(即,样本均值总体)。
- Z\T检验本质上,并不是因为,样本服从N(μ,σ)的总体
所以,样本均值总体的正态分布,均值是μ,方差是 σ 2 n \frac{σ²}{n} nσ2,那么标准差就是 σ n \frac{σ}{\sqrt{n}} nσ
根据普态转正态的公式: 检验统计量 = 均值差 标准差 \frac{均值差}{标准差} 标准差均值差= x − μ σ / n \frac{x-μ}{σ/\sqrt{n}} σ/nx−μ
这就是Z\T单样本检验的检验统计量z、t值由来啊!
所以啊!!!!!无论总体是否服从正态分布,只要样本均值,服从正态分布,那就完全可以进行显著性检验辣!!
于是,我忍不住思考,为什么市面上很多显著性检验,要求总体服从正态分布呢?
4. 正态性要求
其实,总体服从正态分布,可以弥补中心极限定理的缺陷:
- 中心极限定理:当样本量足够大(统计研究发现n≥30时,样本均值服从正态分布),如果总体偏态严重,那么n需要更大一些。
中心极限定理的缺陷在于,要求样本量足够大的情况,但当样本量不够大,样本均值就不服从正态分布了吗?
不,不是的!
当总体服从正态分布时,那么总体中的每个数据(即n=1的样本),本身就服从正态分布,样本均值=数据值,也服从正态总体;
👉由此可推测,样本量n比较小的时候,只要总体服从正态分布,那么样本均值也是会服从正态分布的。
那么,要进行正态分布下的Z\T检验,只需要符合以下两种情况:
- 1)总体服从正态分布
- 2)如果样本量较大(通常是n≥30)——【中心极限定理】