各种假设检验总结

本文详细介绍了统计学中常见的假设检验方法,包括Z检验、t检验、卡方检验、F检验和非参数检验如K-S检验。Z检验适用于大样本均值差检验,t检验则用于均值和比率的比较,尤其在标准差未知时。卡方检验关注比率和方差的齐性,F检验用于方差分析,K-S检验则用于检验样本是否来自特定分布。此外,还涵盖了配对样本检验、相关系数检验和游程检验等。这些方法在科研和数据分析中起着关键作用。
摘要由CSDN通过智能技术生成

各种假设检验总结 – 潘登同学的数理统计笔记

假设检验的步骤

  • 原假设("="放在原假设)
  • 确定检验统计量
  • 确定显著性水平( α \alpha α)
  • 确定拒绝域
  • 计算检验统计量
  • 做出统计判断

Z检验

均值差检验

是一般用于大样本 (即 样本容量 大于30)平均值差异性检验的方法。

在这里插入图片描述

  • 原假设

H 0 H_0 H0: 总体均值为 μ 0 \mu_0 μ0, 即 μ = μ 0 \mu = \mu_0 μ=μ0

  • 检验统计量

Z = X ˉ − μ 0 σ 0 n Z = \frac{\bar{X}-\mu_0}{\frac{\sigma_0}{\sqrt{n}}} Z=n σ0Xˉμ0

其中, σ 0 \sigma_0 σ0为已知标准差

总体比率的检验

一般用 Π \Pi Π表示总体比率,用 p p p表示样本比率,关于总体比率的假设检验就是依据 p p p的抽样分布对 Π \Pi Π是否等于某个值所做的判断

单一总体比率的检验

  • 原假设

H 0 H_0 H0: 总体比率为 Π 0 \Pi_0 Π0, 即 Π = Π 0 \Pi = \Pi_0 Π=Π0

  • Z检验统计量(当样本容量足够大,即 n Π n\Pi nΠ n ( 1 − Π ) n(1-\Pi) n(1Π)都大于等于5时,样本比率 p p p的抽样分布近似服从均值为 Π \Pi Π,标准差为 Π 0 ( 1 − Π 0 ) n \frac{\sqrt{\Pi_0(1-\Pi_0)}}{\sqrt{n}} n Π0(1Π0) 的正态分布)

Z = p − Π 0 Π 0 ( 1 − Π 0 ) n Z = \frac{p-\Pi_0}{\frac{\sqrt{\Pi_0(1-\Pi_0)}}{\sqrt{n}}} Z=n Π0(1Π0) pΠ0

两总体比率的检验

  • 原假设

H 0 H_0 H0: 总体比率差为 D 0 D_0 D0, 即 Π 1 − Π 2 = D 0 \Pi_1 - \Pi_2 = D_0 Π1Π2=D0

  • Z检验统计量(与上面其实差不多,就涉及了正态分布加减仍是正态分布)

Z = ( p 1 − p 2 ) − D 0 σ p 1 − p 2 Z = \frac{(p_1-p_2)-D_0}{\sigma_{p_1-p_2}} Z=σp1p2(p1p2)D0
其中, σ p 1 − p 2 = Π 1 ( 1 − Π 1 ) n 1 + Π 2 ( 1 − Π 2 ) n 2 \sigma_{p_1-p_2} = \sqrt{\frac{\Pi_1(1-\Pi_1)}{n_1} + \frac{\Pi_2(1-\Pi_2)}{n_2}} σp1p2=n1Π1(1Π1)+n2Π2(1Π2)

t检验

主要是比较均值

单总体检验

单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布

  • 原假设

H 0 H_0 H0: 总体均值为 μ 0 \mu_0 μ0, 即 μ = μ 0 \mu = \mu_0 μ=μ0

  • t检验统计量
    t = X ˉ − μ 0 s n t = \frac{\bar{X}-\mu_0}{\frac{s}{\sqrt{n}}} t=n sXˉμ0

其中, X ˉ = ∑ i = 1 n x i n , s = ∑ i = 1 n ( x i − x ˉ ) 2 n \bar{X}=\frac{\sum_{i=1}^{n}x_i}{n},s = \sqrt{\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}} Xˉ=ni=1nxi,s=ni=1n(xixˉ)2

然而当样本容量大于30, t分布渐近标准正态, 也可以采用Z检验统计量;

双总体检验

双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。

独立样本t检验

各实验处理组之间毫无相关存在,即为独立样本

  • 原假设

H 0 H_0 H0: 两个总体均值相等, 即 μ 1 = μ 2 \mu_1 = \mu_2 μ1=μ2

1. 独立大样本,总体标准差已知
  • 独立样本Z检验统计量
    Z = X 1 ˉ − X 2 ˉ σ 1 2 n 1 + σ 2 2 n 2 Z = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} Z=n1σ12+n2σ22 X1ˉX2ˉ

σ 1 2 、 σ 2 2 \sigma_1^2、 \sigma_2^2 σ12σ22为两总体方差, n 1 , n 2 n_1, n_2 n1,n2为两样本容量

2. 独立大样本,总体标准差未知
  • 独立样本Z检验统计量
    Z = X 1 ˉ − X 2 ˉ S 1 2 n 1 + S 2 2 n 2 Z = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} Z=n1S12+n2S22 X1ˉX2ˉ

S 1 2 、 S 2 2 S_1^2、 S_2^2 S12S22为两样本方差, n 1 , n 2 n_1, n_2 n1,n2为两样本容量

3. 独立小样本,总体标准差未知
  • 独立样本t检验统计量
    t = X 1 ˉ − X 2 ˉ ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 ( 1 n 1 + 1 n 2 ) t = \frac{\bar{X_1} - \bar{X_2}}{\sqrt{\frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}{(\frac{1}{n_1} + \frac{1}{n_2})}}} t=n1+n22(n11)S12+(n21)S22(n11+n21) X1ˉX2ˉ

S 1 2 、 S 2 2 S_1^2、 S_2^2 S12S22为两样本方差, n 1 , n 2 n_1, n_2 n1,n2为两样本容量

配对样本t检验

是对用于检验配对设计实验中成对定量数据是否存在差异性的统计方法

  • 配对设计实验

    • 同一对象处理前后的数据,例如判断使用新的教学模式前、后学生成绩是否存在差异性
    • 同一对象两个部位的数据,例如判断静脉采血与末梢神经采血化验指标是否存在差异
    • 同一样品两种方法检验的结果,例如判断传统化验手段与新型化验手段是否存在差异
    • 配对的两个对象分别接受进行两种处理后的数据,例如判断病人使用两种不同降压药对于血压的控制是否存在差异
  • 原假设

H 0 H_0 H0: 两个总体均值之差为 μ 0 \mu_0 μ0, 即 X 1 − X 2 = μ 0 X_1 - X_2 = \mu_0 X1X2=μ0

  • 配对样本t检验统计量
    t = d ˉ − μ 0 S d n t = \frac{\bar{d} - \mu_0}{\frac{S_d}{\sqrt{n}}} t=n Sddˉμ0

其中, d i = x 1 i − x 2 i ; d ˉ = ∑ i = 1 n d i n ; S d = ∑ i = 1 n ( d i − d ˉ ) 2 n − 1 d_i = x_{1i} - x_{2i}; \bar{d} = \frac{\sum_{i=1}^nd_i}{n}; S_d = \sqrt{\frac{\sum_{i=1}^{n}(d_i-\bar{d})^2}{n-1}} di=x1ix2i;dˉ=ni=1ndi;Sd=n1i=1n(didˉ)2

相关系数检验

  • 原假设

H 0 : ρ = 0 H_0: \rho = 0 H0:ρ=0

  • 检验统计量
    t = r − 1 1 − r 2 n − 2 , d f = n − 2 t = \frac{r-1}{\sqrt{\frac{1-r^2}{n-2}}}, df = n-2 t=n21r2 r1,df=n2

其中,n为样本量, r为样本的相关系数 r = c o v ( x , y ) σ ( x ) σ ( y ) r = \frac{cov(x,y)}{\sigma(x)\sigma(y)} r=σ(x)σ(y)cov(x,y)

F检验

方差齐性检验

方差齐性是方差分析和一些均数比较、t检验的重要前提,利用F检验进行方差齐性检验是最原始的,但对数据要求比较高。

  • 样本要求

样本来自两个独立的、服从正态分布的总体。
X 1 ∼ N ( μ 1 , σ 1 2 ) , X 2 ∼ N ( μ 2 , σ 2 2 ) X_1 \sim N(\mu_1, \sigma_1^2), X_2 \sim N(\mu_2, \sigma_2^2) X1N(μ1,σ12),X2N(μ2,σ22)

  • 原假设

H 0 H_0 H0: 两个总体方差相等, 即 σ 1 2 = σ 2 2 \sigma_1^2 = \sigma_2^2 σ12=σ22

  • 检验统计量
    F = S 1 2 S 2 2 F = \frac{S_1^2}{S_2^2} F=S22S12

其中, S 1 = 1 n 1 − 1 ∑ i = 1 n ( X 1 i − X 1 ˉ ) S_1=\frac{1}{n_1-1}\sum_{i=1}^n(X_{1i} - \bar{X1}) S1=n111i=1n(X1iX1ˉ)

原理详解

F分布的定义: 两个卡方/n 之比 – F分布

S 1 2 σ 1 2 S 2 2 σ 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}}\sim F(n_1-1, n_2-1) σ22S22σ12S12F(n11,n21)

σ 1 = σ 2 \sigma_1 = \sigma_2 σ1=σ2时, 那么 S 1 2 S 2 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{S_1^2}{S_2^2}\sim F(n_1-1, n_2-1) S22S12F(n11,n21)

单因素方差分析

假设我们要研究一个因素对于一个指标的影响,试图比较这个因素内各个取值水平对于这个指标的影响是否相同。

  • 样本要求

每一水平的总体服从正态分布且各总体方差相等(所以要求先做方差齐性检验)

  • 原假设

H 0 H_0 H0: 各个总体均值相等, 即 μ 1 = μ 2 = ⋯ = μ n \mu_1 = \mu_2 = \cdots = \mu_n μ1=μ2==μn

  • 检验统计量
    F = S S A d f 1 S S E d f 2 ∼ F ( d f 1 , d f 2 ) F = \frac{\frac{SSA}{df_1}}{\frac{SSE}{df_2}}\sim F(df_1, df_2) F=df2SSEdf1SSAF(df1,df2)

其中,SSA是组间平方和, SSE是组内平方和, (假设总共有m个样本,分为n个组(不一定均匀))
S S A = ∑ i = 1 n m i ( y i ⋅ ˉ − y ˉ ) 2 S S E = ∑ i = 1 n ∑ j = 1 m i ( y i j − y i ⋅ ˉ ) 2 SSA = \sum_{i=1}^{n}m_i(\bar{y_{i\cdot}} - \bar{y})^2\\ SSE = \sum_{i=1}^{n}\sum_{j=1}^{m_i}(y_{ij} - \bar{y_{i\cdot}})^2\\ SSA=i=1nmi(yiˉyˉ)2SSE=i=1nj=1mi(yijyiˉ)2

d f 1 = n − 1 , d f 2 = m − n df_1 = n-1, df_2 = m-n df1=n1,df2=mn 因为SSE有n个已知参数就是每组的均值, 所以自由度是 m − n m-n mn, SSA里面只有一个已知参数就是样本的均值 y ˉ \bar{y} yˉ, 所以自由度就是 n − 1 n-1 n1

原理详解

F分布的定义: 两个卡方/n 之比 核心关键是 S S A σ 2 、 S S E σ 2 \frac{SSA}{\sigma^2}、\frac{SSE}{\sigma^2} σ2SSAσ2SSE就是卡方, 而前面假设方差相等

S S A ( n − 1 ) σ 2 S S E ( m − n ) σ 2 = S S A ( n − 1 ) S S E ( m − n ) ∼ F ( n − 1 , m − n ) \frac{\frac{SSA}{(n-1)\sigma^2}}{\frac{SSE}{(m-n)\sigma^2}} = \frac{\frac{SSA}{(n-1)}}{\frac{SSE}{( m-n)}}\sim F(n-1, m-n) (mn)σ2SSE(n1)σ2SSA=(mn)SSE(n1)SSAF(n1,mn)

线性回归方程整体的显著性检验

线性回归方程的总变差也可以像方差分析一样分解:

总 离 差 平 方 和 = 回 归 平 方 和 + 残 差 平 方 和 S S T = S S R + S S E S S T = ∑ i = 1 m ( y i − y ˉ ) 2 S S R = ∑ i = 1 m ( y i ^ − y ˉ ) 2 S S E = ∑ i = 1 m u i ^ = ∑ i = 1 m ( y i − y i ^ ) 2 总离差平方和 = 回归平方和+残差平方和\\ SST = SSR+SSE\\ SST = \sum_{i=1}^{m}(y_i - \bar{y})^2\\ SSR = \sum_{i=1}^{m}(\hat{y_i} - \bar{y})^2\\ SSE = \sum_{i=1}^{m}\hat{u_i} = \sum_{i=1}^{m}(y_i - \hat{y_i})^2\\ =+SST=SSR+SSESST=i=1m(yiyˉ)2SSR=i=1m(yi^yˉ)2SSE=i=1mui^=i=1m(yiyi^)2

  • 原假设

H 0 H_0 H0: 线性模型中的一组自变量(q个)对因变量没有影响 即 β 1 = β 2 = ⋯ = β q \beta_1 = \beta_2 = \cdots = \beta_q β1=β2==βq

  • 检验统计量
    F = S S R r − S S R u r q S S R u r m − n − 1 ∼ F ( q , m − n − 1 ) F = \frac{\frac{SSR_r - SSR_{ur}}{q}}{\frac{SSR_{ur}}{m-n-1}} \sim F(q,m-n-1) F=mn1SSRurqSSRrSSRurF(q,mn1)

其中, S S R r SSR_r SSRr为排除了原假设中的自变量构造的一个新的线性模型的 S S R SSR SSR,
S S R u r SSR_{ur} SSRur是原线性模型的 S S R SSR SSR, n是自变量个数

特别地, 如果 q = n q=n q=n
F = S S R n S S E m − n − 1 ∼ F ( n , m − n − 1 ) F = \frac{\frac{SSR}{n}}{\frac{SSE}{m-n-1}} \sim F(n,m-n-1) F=mn1SSEnSSRF(n,mn1)

卡方检验(参数检验)

  • 原假设

H 0 H_0 H0: 方差为 σ 0 \sigma_0 σ0, 即 σ = σ 0 \sigma = \sigma_0 σ=σ0

  • 检验统计量
    χ 2 = ( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1) χ2=σ2(n1)s2χ2(n1)
    其中, s 2 s^2 s2为样本方差

卡方检验(非参数检验)

拟合度的卡方检验

统计样本的实际观测值理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

  • 原假设

H 0 H_0 H0: 总体服从某种分布, 理论值为 f e f_e fe

  • 检验统计量

χ 2 = ∑ i = 1 n ( f i − f e ) 2 f e \chi^2 = \sum_{i=1}^{n} \frac{(f_i - f_e)^2}{f_e} χ2=i=1nfe(fife)2

其中, n表示分类变量的个数, 卡方分布的自由度为 n − 1 n-1 n1

卡方独立性检验

用于两个或两个以上因素多项分类的计数资料分析,即研究两类变量之间(以列联表形式呈现)的关联性和依存性,或相关性、独立性、交互作用性。

  • 原假设

H 0 H_0 H0: X与Y没有关系, 相互独立

  • 独立样本四格表

假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},其样本频数列联表为

y 1 y_1 y1 y 2 y_2 y2总计
x 1 x_1 x1aba+b
x 2 x_2 x2cdc+d
总计a+cc+da+b+c+d
  • 检验统计量

χ 2 = n ( a d − b c ) 2 ( a + b ) ( c + d ) ( a + c ) ( b + d ) 自 由 度 d f = ( 行 数 − 1 ) ( 列 数 − 1 ) = 1 \chi^2 = \frac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\\ 自由度df=(行数-1)(列数-1)=1 χ2=(a+b)(c+d)(a+c)(b+d)n(adbc)2df=11=1

K-S检验(非参数检验)

单样本K-S

主要是用来检验一组样本是否来自于某个概率分布

  • 原假设

H 0 H_0 H0: 样本来自于P(分布)

  • 检验统计量

D = max ⁡ { ∣ S ( x i ) − F ( x i ) ∣ } 修 正 后 , D = max ⁡ { ∣ S ( x i − 1 ) − F ( x i ) ∣ } D = \max\{|S(x_i) - F(x_i)|\}\\ 修正后, D = \max\{|S(x_{i-1}) - F(x_i)|\} D=max{S(xi)F(xi)}D=max{S(xi1)F(xi)}

其中, S ( x i ) S(x_i) S(xi)为实际的累计概率, F ( x i ) F(x_i) F(xi)为理论的累计概率, max ⁡ \max max表示差值样本中的最大绝对差值

在大样本下, 原假设成立时, n D \sqrt{n}D n D服从Kolmogorov-Smirnov分布, 分布函数为
K ( x ) = ∑ j = − ∞ ∞ ( − 1 ) j e − 2 j 2 x 2 K(x) = \sum_{j=-\infty}^{\infty}(-1)^j e^{-2j^2x^2} K(x)=j=(1)je2j2x2

两独立样本K-S检验

首先, 将两个样本混合并且按照升序排序; 然后分别计算两样本秩的累计概率;最后根据两组累计概率差的绝对值, 得到累计概率绝对差的序列并得到D统计量

  • 原假设

H 0 H_0 H0: 两组样本的总体的分布一样

  • 检验统计量

D = max ⁡ { ∣ S 1 ( x i ) − S 2 ( x i ) ∣ } D = \max\{|S_1(x_i) - S_2(x_i)|\}\\ D=max{S1(xi)S2(xi)}

其中, S 1 ( x i ) S_1(x_i) S1(xi)是一组样本秩的累计概率

游程检验

游程检验亦称“连贯检验”,是根据样本标志表现排列所形成的游程的多少进行判断的检验方法。

  • 举个栗子

00110111000100100010 第一组的游程是5,第二组的游程是2,第三组的游程是11。

首先看零在这个序列中出现几次,假如有一个零,也算一次,一百个零连在一起也算一次,这个一次称作一个游程。查一查零共出现六次,所以有六个零的游程。其他以此类推。

随机变量游程检验

  • 检验思想

如果序列为真随机序列,那么游程的总数应该不太多也不太少。如果游程的总数极少,就说明样本缺乏独立性,内部存在一定的趋势或者结构,这可能由于观察值间不独立,或者来自不同的总体。如果样本间存在大量游程,则可能有系统的短周期波动影响观察结果。同样认为序列非随机。

  • 原假设

H 0 H_0 H0: 变量值出现是随机的

  • 检验统计量(Z统计量)

Z = r − μ r σ r Z = \frac{r-\mu_r}{\sigma_r} Z=σrrμr
其中, r为游程数, μ r = 2 n 1 n 2 n 1 + n 2 ; σ r 2 = 2 n 1 n 2 ( 2 n 1 n 2 − n 1 − n 2 ) ( n 1 + n 2 ) 2 ( n 1 + n 2 − 1 ) \mu_r = \frac{2n_1n_2}{n_1 + n_2};\sigma_r^2 = \frac{2n_1n_2(2n_1n_2 - n_1 - n_2)}{(n_1 + n_2)^2(n_1 + n_2 -1)} μr=n1+n22n1n2;σr2=(n1+n2)2(n1+n21)2n1n2(2n1n2n1n2)

两独立样本W-W游程检验

  • 原假设

H 0 H_0 H0: 两组样本的总体的分布一样

  • 检验思想

首先, 将两样本混和并按升序排序。在变量值排序的同时, 对应的组标记值也会随之重新排列。 然后, 对组标记值序列按照前面讨论的计算游程的方式计算游程数, 如果两总体的分布存在较大差异, 那么基于组标记的游程数会相对比较少; 如果胡太医组标记的游程数比较大, 则应是两组样本值充分混合的结果, 两总体的分布不会存在显著差异.

  • 检验统计量(Z统计量)

Z = r − μ r σ r Z = \frac{r-\mu_r}{\sigma_r} Z=σrrμr

两独立样本的曼-惠特尼U检验

  • 原假设

H 0 H_0 H0: 两组样本的总体的分布一样(总体均值相等)

  • 检验步骤

首先, 将两样本混和并按升序排序。分别对两个样本的秩求平均, 得到两个平均秩 W x m , W y n \frac{W_x}{m}, \frac{W_y}{n} mWx,nWy, W x , W y W_x, W_y Wx,Wy是秩和统计量。 然后计算U统计量

  • U统计量
    U = W − 1 2 k ( k + 1 ) U = W - \frac{1}{2}k(k+1) U=W21k(k+1)
    其中, W为WilcoxonW = min ⁡ ( W x , W y ) \min(W_x, W_y) min(Wx,Wy), k为W对应秩和所在组的样本量

在小样本下, U统计量服从曼-惠特尼分布, 大样本下, U统计量近似服从正态分布
Z = U − 1 2 m n 1 2 m n ( m + n + ) Z = \frac{U - \frac{1}{2}mn}{\sqrt{\frac{1}{2}mn(m+n+)}} Z=21mn(m+n+) U21mn

注意 这个检验不像前面的一样的, 是统计量大于临界值才拒绝原假设, 而是统计量小于临界值就能拒绝原假设;

容易理解, 如果两个样本的均值差距较大, 那么他们的秩和差距也会大, 那么小的那个秩和统计量就会很小, 从而U统计量会很小, 从而更容易拒绝原假设;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PD我是你的真爱粉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值