样本 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,…,xn来自正态分布 N ( μ x , σ x 2 ) N(\mu_x,\sigma_x^2) N(μx,σx2),样本 y 1 , y 2 , … , y m y_1,y_2,\dots,y_m y1,y2,…,ym来自正态分布 N ( μ y , σ y 2 ) N(\mu_y,\sigma_y^2) N(μy,σy2)。
检验假设: H 0 : μ x = μ y , H 1 : μ x < μ y H_0 :\mu_x = \mu_y,H_1:\mu_x < \mu_y H0:μx=μy,H1:μx<μy
正常情况下会构造统计量 x ‾ − y ‾ s x 2 n + s y 2 m \frac {\overline x - \overline y} {\sqrt{ {s_x^2 \over n}+{s_y^2 \over m}}} nsx2+msy2x−y,当样本量足够大时,在原假设成立的情况下近似服从分布 N ( 0 , 1 ) N(0,1) N(0,1),也就是标准正态分布。
简单介绍一下两类错误:
- H0为真但由于随机性使样本观测值落在了拒绝域中,从而拒绝原假设H0,这种错误称为第一类错误,也称为α错误。(拒真)
- H0不为真,但由于随机性使样本观测值落入接受域中,从而接受假设H0,这种错误称为第二类错误,也称为β错误。(存伪)
先推导一下第二类错误的计算公式,以单边检验为例:
β = P ( x ‾ − y ‾ s x 2 n + s y 2 m ≤ Z 1 − α ∣ H 0 为 假 ) = P ( x ‾ − y ‾ − δ s x 2 n + s y 2