什么是假设检验
首先,什么是假设?在数理推断中,总体分布通常是未知的,包含了两类,一类是分布类型未知,一类是分布类型已知,但参数未知,假设就是对总体分布的一种推断,比如假设总体服从正态分布,假设正态分布的均值是500。根据未知类型,分为非参数假设和参数假设。假设检验就是利用样本来检验假设成立与否。接下来通过几个例子来介绍假设检验可以解决什么问题。
例子1:某洗衣粉加工机器要求每袋洗衣粉500g,现在随机抽9袋进行检查,发现其重量是:505、499、502、506、498、498、497、510、503,假设σ=2\displaystyle \sigma =2σ=2固定不变,问这个加工机器是否合格?
例子2:某工厂厂灯泡,产出的灯泡服从正态分布,N=(u,40000)\displaystyle N=( u,40000)N=(u,40000),平均寿命是1500小时,采用新工艺后,抽样25只,其平均寿命是x‾=1675\displaystyle \overline{x} =1675x=1675小时,问采用新工艺后,灯泡寿命是否显著挺高?
假设检验思想
下面通过一个例子来了解假设检验的基本思想。一个盒子装了红白球共100个,张三说里面有99个是白球,现在我任取一球,取出的是红球,问张三的说法对吗?
假如张三说的对,则p(红球)=1/100,也就是一次抽样取出红球是小概率事件,但现在一次抽样抽出红球,与小概率事件实际在一次抽样中不发生的原理矛盾,而矛盾的根源是假设张三说的对,所以要怀疑“张三的说法”,认为张三说的不对(这个认为不一定是对的)。当一次抽样是白球,没有发生矛盾,如果不能找到矛盾,那就没有理由怀疑“张三说得对”,也就是我们就不能怀疑“张三说的对”,那就认为张三是对的。这里实际上用到了反证法,先假定张三说的对,然后看有没有矛盾发生,如果矛盾发生则怀疑说法,如果没有矛盾则接受说法,认为说法正确。那跟谁矛盾呢?跟统计中的小概率实际不发生的原理矛盾。
假设检验步骤
接下来通过一个例子来介绍假设检验的步骤。
(1)提出假设。假设检验是对整体分布或者参数提出假设,并利用样本进行检验,所以我们首先提出假设。针对例子1:某洗衣粉加工机器要求每袋洗衣粉500g,现在随机抽9袋进行检查,发现其重量是:505、499、502、506、498、498、497、510、503,假设σ=2\displaystyle \sigma =2σ=2固定不变,问这个加工机器是否合格?我们提出原假设洗衣粉加工机器生产的洗衣粉整体分布的均值u=500g,即H0:u=500\displaystyle H_{0} :u=500H0:u=500,提出备择假设:H1:u≠500\displaystyle H_{1} :u\neq 500H1:u=500
(2)假设H0\displaystyle H_{0}H0成立,看看能不能推出矛盾。假设H0\displaystyle H_{0}H0成立,则X∼N(500,4)\displaystyle X\sim N( 500,4)X∼N(500,4),从这样的总体中抽9个样本,则样本的分布服从X‾∼N(500,49)\displaystyle \overline{X} \sim N\left( 500,\frac{4}{9}\right)X∼N(500,94),标准化为U=X‾−5002/3∼N(0,1)\displaystyle U=\frac{\overline{X} -500}{2/3} \sim N( 0,1)U=2/3X−500∼N(0,1)。 下图是标准正态分布的图像,中间非阴影部分是大概率事件,落在这个区间的概率是1−α\displaystyle 1-\alpha1−α,即P{
∣U∣<Uα2}=1−α\displaystyle P\{|U|< U_{\frac{\alpha }{2}}\} =1-\alphaP{
∣U∣<U2α}=1−α。

假设检验关注的是小概率事件发生了没,所以我们不看大概率事件,看落在阴影部分的小概率事件,即关注P{
∣U∣⩾Uα2}=α\displaystyle P\{|U|\geqslant U_{\frac{\alpha }{2}}\} =\alphaP{
∣U∣⩾U2α}=α。在应用中,我们一般会先设定α\displaystyle \alphaα的取值,也就是假定小概率事件发生的概率,当α\displaystyle \alphaα和分布确定后,我们可以查表查看α\displaystyle \alphaα对应的Uα2\displaystyle U_{\frac{\alpha }{2}}U2α对应的取值。比如我们取α=0.05\displaystyle \alpha =0.05α=0.05,可以通过查标准正态分布的表看到,当α=0.05\displaystyle \alpha =0.05α=0.05时,对应的Uα2=1.96\displaystyle U_{\frac{\alpha }{2}} =1.96U2α=1.96,也就是当U小于−1.96\displaystyle -1.96−1.96或者U大于1.96时,小概率事件发生了。接下来我们看抽样样本有没有落在小概率事件对应的区间:X‾=19∑i=19xi=502\displaystyle \overline{X} =\frac{1}{9}\sum _{i=1}^{9} x_{i} =502X=91i=1∑9xi=502,∣U∣=X‾−5002/3=3>Uα/2=1.96\displaystyle |U|=\frac{\overline{X} -500}{2/3} =3 >U_{\alpha /2} =1.96∣U∣=2/3X−500=3>Uα/2=1.96,样本数据落在小概率事件里头,与小概率事件在一次抽样中不发生的原理矛盾,而中间的推导没有问题,那矛盾的根源就是我们的假设是错误的,所以我们不得不怀疑原假设,也就是拒绝原假设,接受备择假设。假设|U|算出来算出来小于1.96,也就是没推出矛盾,那就没理由怀疑原假设,也就是接受原假设,认为原假设是对的。
这一步的基本思想就是从样本出发,去构造一个检验统计量T服从已知分布,这个统计量除了样本外,不含任何未知参数,例子中的检验统计量就是U。然后在H0\displaystyle H_{0}H0成立的前提下,T的分布已知,构造一个检验法则,即想办法找出T的拒绝域和接受域。
这一步的基本思想就是从样本出发,去构造一个检验统计量T服从已知分布,这个统计量除了样本外,不含任何未知参数,例子中的检验统计量就是U。然后在H0\displaystyle H_{0}H0成立的前提下,T的分布已知,构造一个检验法则,即想办法找到小概率事件对应的拒绝域和接受域。
假设检验存在的两类错误
我们提出假设,根据给出的样本来检验假设,得出接受H0\displaystyle H_{0}H0还是拒绝H0\displaystyle H_{0}H0的决策,这个决策未必是对的,原因是样本的随机性或者样本容量过小,导致判断错误,所以统计推断就会有不准确性,分为两类:
第一类错误:弃真。H0\displaystyle H_{0}H0实际为真,但通过样本推断被拒绝了。P{
拒绝H0∣H0为真}=α\displaystyle P\{拒绝H_{0} |H_{0} 为真\} =\alphaP{
拒绝H0∣H0为真}=α
第二类错误:纳伪。H0\displaystyle H_{0}H0实际为假,但通过样本推断被接受了。P{
接受H0∣H0为假}=β\displaystyle P\{接受H_{0} |H_{0} 为假\} =\betaP{
接受H0∣H0为假}=β
我们当然希望犯上面两类错误的概率越小越好,但要想同时让α\displaystyle \alphaα和β\displaystyle \betaβ都很小,几乎是不可能的,除非样本容量N无限加大,我们选择在确保α\displaystyle \alphaα的前提下再尽可能的减少β\displaystyle \betaβ,也就是优先保证第一类错误尽量不要犯。
假设检验方法
一个正态总体的参数假设检验
假设X∼(u,σ2)\displaystyle X\sim \left( u,\sigma ^{2}\right)X∼(u,σ2),(X1,X2,...,Xn)\displaystyle (X_{1} ,X_{2} ,...,X_{n})(X1,X2,...,Xn)是取自X的样本,检验水平是α\displaystyle \alphaα。正态分布有两个参数u\displaystyle uu和σ\displaystyle \sigmaσ,我们分别看这两个参数的检验方法。
一、u\displaystyle uu的假设检验
从形式上,可以提出三种不同的假设:
(1)H0:u=u0,H1:u≠u0\displaystyle H_{0} :u=u_{0} ,H_{1} :u\neq u_{0}H0:u=u0,H1:u=u0,我们把这种称为双边假设,对应的检验叫双侧检验。
(2)H0:u⩽u0,H1:u>u0\displaystyle H_{0} :u\leqslant u_{0} ,H_{1} :u >u_{0}H0:u⩽u0,H1:u>u0,拒绝域在右边,所以我们把这种称为右假设,对应的检验叫右侧检验(单边检测)。
(3)H0:u⩾u0,H1:u<u0\displaystyle H_{0} :u\geqslant u_{0} ,H_{1} :u< u_{0}H0:u⩾u0,H1:u<u0,拒绝域在左边,所以我们把这种称为左假设,对应的检验叫左侧检验(单边检测)。
在具体解决的时候,经常把第(2)、(3)简化为H0:u=u0\displaystyle H_{0} :u=u_{0}H0:u=u0来处理,然后判断左右。所以下面的内容都只以形式(1)为例来对进行检验。
根据σ\displaystyle \sigmaσ是否已知,分为两种情况:
1、 当σ2=σ02\displaystyle \sigma ^{2} =\sigma {_{0}}^{2}σ2=σ02已知,检验H0:u=u0\displaystyle H_{0} :u=u_{0}H0:u=u0:
第一步:提出假设:H0:u=u0,H1:u≠u0\displaystyle H_{0} :u=u_{0} ,H_{1} :u\neq u_{0}H0:u=u0,H1:u=u0
第二步:假定H0\displaystyle H_{0}H0成立,可以得到X∼(u0,σ02)\displaystyle X\sim \left( u_{0} ,\sigma {_{0}}^{2}\right)X∼(u0,σ02),选取检验统计量U=X‾−u0σ0/n∼N(0,1)\displaystyle U=\frac{\overline{X} -u_{0}}{\sigma _{0} /\sqrt{n}} \sim N( 0,1)U=σ0/nX−u0∼N(0,1)
第三步:给定α\displaystyle \alphaα,查表可得P{
∣U∣>Uα2}=α\displaystyle P\{|U| >U_{\frac{\alpha }{2}}\} =\alphaP{
∣U∣>U2α}=α对应 的Uα2\displaystyle U_{\frac{\alpha }{2}}U2α
第四步:计算U\displaystyle UU的值,比较∣U∣\displaystyle |U|∣U∣和Uα2\displaystyle U_{\frac{\alpha }{2}}U2α,下结论:
a. 若∣U∣>Uα2\displaystyle |U| >U_{\frac{\alpha }{2}}∣U∣>U2α,拒绝H0\displaystyle H_{0}H0
b. 若∣U∣<Uα2\displaystyle |U|< U_{\frac{\alpha }{2}}∣U∣<U2α,接受H0\displaystyle H_{0}H0
c. 若∣U∣=Uα2\displaystyle |U|=U_{\frac{\alpha }{2}}∣U∣=U2α,再抽样再检验
因为选取的统计量服从标准正态分布,所以这种检验方法叫U检验法 。
2、 σ2\displaystyle \sigma ^{2}σ2未知,检验H0:u=u0\displaystyle H_{0} :u=u_{0}H0:u=u0:
第一步:提出假设:H0:u=u0,H1:u≠u0\displaystyle H_{0} :u=u_{0} ,H_{1} :u\neq u_{0}H0:u=u0,H1:u=u0
第二步:假定H0\displaystyle H_{0}H0成立,选取检验统计量。上面已知σ2\displaystyle \sigma ^{2}σ2的时候,我们取X‾−u0σ0/n\displaystyle \frac{\overline{X} -u_{0}}{\sigma _{0} /\sqrt{n}}σ0

假设检验是数理统计中用于检验一个总体特性(如均值、方差)是否符合特定假设的方法。它包括提出假设、构造统计量、设定显著性水平、比较结果并作出决策。例如,检验机器生产的洗衣粉重量是否符合标准,或者新工艺是否提高了灯泡寿命。检验过程可能涉及正态分布的均值、方差,或者两个正态总体的参数差异。错误类型包括第一类错误(弃真)和第二类错误(纳伪)。常见的检验方法有U检验、T检验、卡方检验和F检验。
最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



