目录导引
这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。
2 单一样本的位置推断
2.1 符号检验
中位数检验定义检验问题如下:
H 0 : M e = M 0 ↔ H 1 : M e ≠ M 0 H_0:M_{e} = M_0 \leftrightarrow H_1:M_{e}\neq M_0 H0:Me=M0↔H1:Me=M0
定义 Y i = I { X i > M 0 } Y_i=I\{X_i > M_0\} Yi=I{
Xi>M0}, Z i = I { X i < M 0 } , i = 1 , 2 , . . . , n Z_i=I\{X_i < M_0 \}, i=1,2,...,n Zi=I{
Xi<M0},i=1,2,...,n
累积值计算:
S + = ∑ i = 1 n Y i = ∑ i = 1 n I { X i > M 0 } S − = ∑ i = 1 n Z i = ∑ i = 1 n I { X i < M 0 } \begin{aligned} S^+ &= \sum_{i=1}^n Y_i = \sum_{i=1}^n I\{X_i > M_0 \}\\ S^- &= \sum_{i=1}^n Z_i = \sum_{i=1}^n I\{X_i < M_0 \} \end{aligned} S+S−=i=1∑nYi=i=1∑nI{
Xi>M0}=i=1∑nZi=i=1∑nI{
Xi<M0}
取 k = m i n { S + , S − } k=min\{S^+,S^-\} k=min{
S+,S−},此时的假设检验问题转换为 Y ∼ b ( 1 , p ) Y \sim b(1,p) Y∼b(1,p)的参数检验问题,其中 p = P ( X > M 0 ) , H 0 : p = 0.5 ↔ H 1 : p ≠ 0.5 p=P(X>M_0), H_0:p=0.5 \leftrightarrow H_1:p \neq 0.5 p=P(X>M0),H0:p=0.5↔H1:p=0.5. 这个检验的拒绝域为
2 ∗ P b i n o m { K ⩽ k ∣ n , p = 0.5 } ⩽ α 2*P_{binom}\{K\leqslant k|n,p=0.5\} \leqslant \alpha 2∗Pbinom{
K⩽k∣n,p=0.5}⩽α
不看拒绝域直接算一个 p p p值应该更方便
p = 2 ∗ P { K ⩽ k ∣ n , p = 0.5 } = 2 ∑ i = 0 k C n k 0. 5 n p=2*P\{K\leqslant k|n,p=0.5\} = 2\sum_{i=0}^k C_{n}^{k}0.5^{n} p=2∗P{
K⩽k∣n,p=0.5}=2i=0∑kCnk0.5n
2.1.2 大样本场合
当样本量较大的时候,可以使用二项分布的正态近似进行检验。当 S + ∼ B ( n ′ , 1 2 ) S^+ \sim B(n',\frac{1}{2}) S+∼B(n′,21)时, S + ∼ N ( n ′ 2 , n ′ 4 ) S^+ \sim N(\frac{n'}{2}, \frac{n'}{4}) S+∼N(2n′,4n′),定义渐进服从标准正态分布的统计量
Z = S + − n ′ 2 n ′ 4 → N ( 0 , 1 ) , n → L + ∞ Z = \frac{S^+ - \frac{n'}{2}}{\sqrt{\frac{n'}{4}}} \to N(0,1), n\stackrel{\mathcal{L}}{\to} +\infty Z=4n′S+−2n′→N(0,1),n→L+∞
正态性修正
当 n ′ n' n′不够大的时候,可以用正态性修正
Z = S + − n ′ 2 + C n ′ 4 → N ( 0 , 1 ) , n → L + ∞ Z = \frac{S^+ - \frac{n'}{2} + C}{\sqrt{\frac{n'}{4}}} \to N(0,1), n \stackrel{\mathcal{L}}{\to} +\infty Z=4n′S+−2n′+C→N(0,1),n→L+∞
其中,
C = { − 1 2 , S + < n ′ 2 1 2 , S + > n ′ 2 C = \left \{ \begin{aligned} -\frac{1}{2} &, S^+<\frac{n'}{2}\\ \frac{1}{2} &, S^+>\frac{n'}{2} \end{aligned} \right . C=⎩⎪⎪⎨⎪⎪⎧−2121,S+<2n′,S+>2n′
2.1.3 配对样本
要熟悉怎么从一对样本中提炼出符号问题,假设我们的数据呈现 { ( x i , y i ) } n \{(x_i,y_i)\}_{n} {
(xi,yi)}n的形式,如果 x i < y i x_i<y_i xi<yi,可以记为 + + +,反之为 − - −,相等为0.我们只比较 + − +- +−的个数,就回到了2.1.1-2,4
的问题。
2.1.4 分位数检验
直接对于2.1.1
的分位数检验进行推广即可,注意 S + S^+ S+在原假设下服从的伯努利分布不再一定是 b ( n ′ , 0.5 ) b(n',0.5) b(n′,0.5).一般意义下为 S + ∼ b ( n ′ , 1 − p 0 ) S^+\sim b(n', 1-p_0) S+∼b(n′,1−p0)
例子
关心空气质量的0.25分位数是否在优
的水平
H 0 : M 0.25 ⩽ 50 , H 1 : M 0.25 > 50 H_0:M_{0.25}\leqslant50,\quad H_1:M_{0.25}>50 H0:M0.25⩽50,H1:M0.25>50
定义 S + = ∑ i = 1 n Y i , S − = ∑ i = 1 n Z i S^+=\sum_{i=1}^n Y_i,\quad S^-=\sum_{i=1}^n Z_i S+=i=1∑nYi,S−=i=1∑nZi
其中 Y i = I { X i > M 0.25 } Y_i=I\{X_i>M_{0.25}\} Yi=I{
Xi>M0.25}, Z i = I { X i < = M 0.25 } Z_i=I\{X_i<=M_{0.25}\} Zi=I{
Xi<=M0.25}
数值计算如下
Splus = length(which(aqi$AQI>50))
Sneg = length(which(aqi$AQI<=50))
print(paste0('S^+ | ', Splus, ' | S^- | ', Sneg))
计算p值
P { S − ⩽ 2 ∣ n = 34 , p = 0.25 } = ∑ i = 0 2 C n i p i ( 1 − p ) n − i ∣ n − 34 , p = 0.25 \begin{aligned} P\{S^- \leqslant 2 | n = 34, p = 0.25\} &=\sum_{i=0}^2 C_{n}^i p^i(1-p)^{n-i} |_{n-34,p=0.25} \end{aligned} P{
S−⩽2∣n=34,p