这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。
这一章关于多组数据的位置推断问题内容较多
4 多组数据位置推断
4.1 方差分析与实验设计
4.1.1 方差分析回顾
可以参考我写的另外一篇博文:统计学中的各种方差分解
4.1.2 实验设计及类别
实验三原则
- 重复性原则
- 随机性原则
- 适宜性原则
重要组成部分:
- 因素:处理就是主因素的不同状态
- 观测:对不同处理下的重复实验
- 区组:当实验材料不同时候的控制变量
4.2 多重检验问题
考虑 m m m个假设检验,比如检验 m m m个基因是否有效
H 0 : μ j = 0 ↔ H 1 : μ j ≠ 0 , j = 1 , 2 , . . . , m H_0: \mu_j=0 \leftrightarrow H_1: \mu_j\neq 0,j=1,2,...,m H0:μj=0↔H1:μj=0,j=1,2,...,m
4.2.1 Bonferroni 矫正法
Bonferroni
检验原理如下:
- 假设总检验的显著性水平为 α \alpha α,检验个数为 m m m,
Bonferroni
的目标是这么多个检验中出现错误发现False Discover
的概率不超过 α \alpha α - 对于每一个单个的检验,设置固定显著性水平 α m \frac{\alpha}{m} mα
- 用
FWER
(Family-wise error rate)表述就是 P ( V ⩽ 1 ) ⩽ α P(V\leqslant1)\leqslant \alpha P(V⩽1)⩽α,这是最狠最保守的检验
4.2.2 BH-FDR 控制法
如果我们只是对FDR
进行控制,那么会比Bonferroni
开放很多,更多小的差异可以被多重检验所识别出来。
做法
- 我们对于多重检验得到的 p p p值进行排序, p ( 1 ) , p ( 2 ) , . . . , p ( m ) p_{(1)},p_{(2)},...,p_{(m)} p(1),p(2),...,p(m)
- 根据设定的显著性水平构造一列显著性水平向量, { i m α } i = 1 m \{\frac{i}{m}\alpha\}_{i=1}^m { miα}i=1m,跟上面的 p p p向量对比
- 找到 max k [ p ( k ) ⩽ i m α ] \max\limits_{k} [p_{(k)}\leqslant \frac{i}{m}\alpha] kmax[p(k)⩽miα]
- 拒绝调次序在 k k k前的所有原假设, H ( 1 ) , H ( 2 ) , . . . , H ( k ) H_{(1)},H_{(2)},...,H_{(k)} H(1),H(2),...,H(k)
4.2.3 H-C高阶鉴定法
应用背景
当检验中存在很多噪声的时候,比如一共有100个检验,有90个都是显然不怎么需要检验,其 p i > 0.2 p_i > 0.2 pi>0.2,这在应用FDR