UA MATH571B 试验设计III 单因素试验设计3
在单因素ANOVA模型中,有时需要对treatment effect做一些其他比较。以下方法就是用来各种不同的比较的。
Contrast
在均值模型中
y
i
j
=
μ
i
+
ϵ
i
j
,
ϵ
i
j
∼
i
i
d
N
(
0
,
σ
2
)
i
=
1
,
2
,
⋯
,
a
;
j
=
1
,
2
,
⋯
,
n
y_{ij} = \mu_i+ \epsilon_{ij},\epsilon_{ij}\sim_{iid}N(0,\sigma^2)\\ i = 1,2,\cdots,a; j=1,2,\cdots,n
yij=μi+ϵij,ϵij∼iidN(0,σ2)i=1,2,⋯,a;j=1,2,⋯,n
假设要做下列假设检验
H
0
:
L
=
∑
i
=
1
a
c
i
μ
i
=
L
0
H_0:L = \sum_{i=1}^a c_i \mu_i=L_0
H0:L=i=1∑aciμi=L0
其中
c
i
c_i
ci可以是任何常数。先考虑
L
L
L的估计量
L
^
=
∑
i
=
1
a
c
i
μ
^
i
=
∑
i
=
1
a
c
i
y
ˉ
i
.
\hat{L} = \sum_{i=1}^a c_i \hat{\mu}_i = \sum_{i=1}^a c_i \bar{y}_{i.}
L^=i=1∑aciμ^i=i=1∑aciyˉi.
显然这个估计量是正态的,其方差为
V
a
r
(
L
^
)
=
∑
i
=
1
a
c
i
2
V
a
r
(
y
ˉ
i
.
)
=
∑
i
=
1
a
c
i
2
σ
2
n
i
Var(\hat{L}) = \sum_{i=1}^a c_i^2 Var(\bar{y}_{i.}) =\sum_{i=1}^a c_i^2 \frac{\sigma^2}{n_i}
Var(L^)=i=1∑aci2Var(yˉi.)=i=1∑aci2niσ2
其中
σ
2
\sigma^2
σ2的估计量是
M
S
E
MSE
MSE,由此可以构造t统计量
L
^
−
L
0
M
S
E
∑
i
=
1
a
c
i
2
n
i
∼
t
(
N
−
a
)
\frac{\hat{L}-L_0}{\sqrt{MSE \sum_{i=1}^a \frac{c_i^2 }{n_i}}} \sim t(N-a)
MSE∑i=1anici2L^−L0∼t(N−a)
用t检验来做。
在上面的线性组合中,如果
∑
i
=
1
a
c
i
=
0
\sum_{i=1}^a c_i=0
∑i=1aci=0,则称这样的线性组合为一个contrast,定义此时的线性组合为
Γ
=
∑
i
=
1
a
c
i
μ
i
\Gamma = \sum_{i=1}^a c_i\mu_i
Γ=∑i=1aciμi,通常关于constrast的检验是
H
0
:
Γ
=
0
H_0:\Gamma=0
H0:Γ=0,这个检验也用t检验做。如果两个contrast的系数
c
i
c_i
ci和
d
i
d_i
di满足
∑
i
=
1
a
c
i
d
i
n
i
=
0
\sum_{i=1}^a c_id_in_i=0
i=1∑acidini=0
则称这两个contrast正交。需要注意的是contrast是在试验之前要设计好的,避免做了试验拿到了数据之后再来选哪些检验能显著!
多个contrast的联合推断
假设要做多个contrast的假设检验
H
0
:
Γ
1
=
Γ
10
,
⋯
,
Γ
m
=
Γ
m
0
H_0:\Gamma_1=\Gamma_{10},\cdots,\Gamma_m=\Gamma_{m0}
H0:Γ1=Γ10,⋯,Γm=Γm0
假设
C
I
1
,
⋯
,
C
I
m
CI_1,\cdots,CI_m
CI1,⋯,CIm是每一个contrast的
100
(
1
−
α
)
%
100(1-\alpha)\%
100(1−α)%置信区间,则
P
(
Γ
i
0
∉
C
I
i
∣
H
0
)
=
α
P(\Gamma_{i0} \notin CI_i|H_0)=\alpha
P(Γi0∈/CIi∣H0)=α
但要要拒绝原假设,只需要任一
Γ
i
0
∉
C
I
i
\Gamma_{i0} \notin CI_i
Γi0∈/CIi,根据Bonferroni不等式,假设要让在原假设成立时拒绝原假设的概率保持为
α
\alpha
α,需要
P
(
Γ
i
0
∉
C
I
i
∣
H
0
)
=
α
′
P(\Gamma_{i0} \notin CI_i|H_0)=\alpha'
P(Γi0∈/CIi∣H0)=α′
P
(
a
t
l
e
a
s
t
o
n
e
i
Γ
i
0
∉
C
I
i
∣
H
0
)
≤
∑
i
=
1
m
P
(
Γ
i
0
∉
C
I
i
∣
H
0
)
=
m
α
′
P(at\ least\ one\ i\, \Gamma_{i0} \notin CI_i|H_0) \le \sum_{i=1}^m P(\Gamma_{i0} \notin CI_i|H_0) = m\alpha'
P(at least one iΓi0∈/CIi∣H0)≤i=1∑mP(Γi0∈/CIi∣H0)=mα′
近似地可以有
α
′
=
α
/
m
\alpha'=\alpha/m
α′=α/m。如果这些
c
o
n
s
t
r
a
s
t
constrast
constrast是正交了,它们的估计量就是独立的,因此上式可以直接取等,并且可以用一个ANOVA同时做这个检验。
α
′
=
α
/
m
\alpha'=\alpha/m
α′=α/m表明如果希望假阳性是
α
\alpha
α,那么每一个置信区间
C
I
i
CI_i
CIi需要用置信水平
100
(
1
−
α
/
m
)
%
100(1-\alpha/m)\%
100(1−α/m)%来构造,这种做联合推断的调整叫Bonferroni调整。
另一种做联合推断的方法是Scheffe方法。根据Scheffe方法构造的单个contrast的置信区间为
Γ
^
i
−
(
a
−
1
)
F
α
,
a
−
1
,
N
−
a
M
S
E
∑
i
=
1
a
c
i
2
n
i
≤
Γ
i
≤
Γ
^
i
+
(
a
−
1
)
F
α
,
a
−
1
,
N
−
a
M
S
E
∑
i
=
1
a
c
i
2
n
i
≤
Γ
i
\hat{\Gamma}_i - \sqrt{(a-1)F_{\alpha,a-1,N-a}} \sqrt{MSE \sum_{i=1}^a \frac{c_i^2 }{n_i}}\le \Gamma_i \le \hat{\Gamma}_i + \sqrt{(a-1)F_{\alpha,a-1,N-a}} \sqrt{MSE \sum_{i=1}^a \frac{c_i^2 }{n_i}}\le \Gamma_i
Γ^i−(a−1)Fα,a−1,N−aMSEi=1∑anici2≤Γi≤Γ^i+(a−1)Fα,a−1,N−aMSEi=1∑anici2≤Γi
如果
m
m
m比较大就用Scheffe,如果
m
m
m比较小就用Bonferroni。
配对比较
假设要对所有的treatment group mean做两两比较,
∀
i
≠
j
\forall i \ne j
∀i=j
H
0
:
μ
i
=
μ
j
H
a
:
μ
i
≠
μ
j
H_0: \mu_i = \mu_j \\ H_a: \mu_i \ne \mu_j
H0:μi=μjHa:μi=μj
Tukey检验
如果试验是平衡的,可以用Tukey检验,如果试验是不平衡的,可以用Tukey-Kramer方法。因为思路都一样,这里介绍Tukey检验。首先构造
q
=
y
ˉ
m
a
x
−
y
ˉ
m
i
n
M
S
E
/
n
q=\frac{\bar{y}_{max}-\bar{y}_{min}}{\sqrt{MSE/n}}
q=MSE/nyˉmax−yˉmin
其中
y
ˉ
m
a
x
\bar{y}_{max}
yˉmax与
y
ˉ
m
i
n
\bar{y}_{min}
yˉmin是待比较的
p
p
p个组内平均的最大值和最小值,它的分布可以查表,记为
q
α
(
p
,
f
)
q_{\alpha}(p,f)
qα(p,f),其中
α
\alpha
α是百分比,
q
α
q_{\alpha}
qα代表上分位点,
f
f
f是
M
S
E
MSE
MSE的自由度。Tukey检验给出的
μ
i
−
μ
j
\mu_i-\mu_j
μi−μj的置信区间边界
y
ˉ
i
.
−
y
ˉ
j
.
±
q
α
(
a
,
f
)
M
S
E
/
n
\bar{y}_{i.} - \bar{y}_{j.} \pm q_{\alpha}(a,f)\sqrt{MSE/n}
yˉi.−yˉj.±qα(a,f)MSE/n
Fisher Least Significant Difference方法
因为两总体比较
μ
i
−
μ
j
\mu_i-\mu_j
μi−μj的置信区间边界可以写成
y
ˉ
i
.
−
y
ˉ
j
.
±
t
α
/
2
,
N
−
a
M
S
E
(
1
n
i
+
1
n
j
)
\bar{y}_{i.} - \bar{y}_{j.} \pm t_{\alpha/2,N-a}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}
yˉi.−yˉj.±tα/2,N−aMSE(ni1+nj1)
定义
L
S
D
=
t
α
/
2
,
N
−
a
M
S
E
(
1
n
i
+
1
n
j
)
LSD = t_{\alpha/2,N-a}\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}
LSD=tα/2,N−aMSE(ni1+nj1)
为Least Significant Difference,代表置信区间的长度。用这个值进行比较的过程是计算
∣
y
ˉ
i
.
−
y
ˉ
j
.
∣
|\bar{y}_{i.} - \bar{y}_{j.}|
∣yˉi.−yˉj.∣,如果比LSD大就认为
μ
i
−
μ
j
\mu_i-\mu_j
μi−μj显著异于0。
Dunnett方法
如果有一组是对照组,那么实验组的结果都要与它比较。假设对照组是第
a
a
a组,则需要做的假设检验是
∀
i
=
1
,
⋯
,
a
−
1
\forall i=1,\cdots,a-1
∀i=1,⋯,a−1,
H
0
:
μ
i
=
μ
a
H
a
:
μ
i
≠
μ
a
H_0: \mu_i = \mu_a \\ H_a:\mu_i \ne \mu_a
H0:μi=μaHa:μi=μa
Dunnett方法与Fisher LSD比较像,都是给一个判别值判断均值的差是否超过了判别值。Dunnett方法的判别值是
d
α
(
a
−
1
,
N
−
a
)
M
S
E
(
1
n
i
+
1
n
j
)
d_{\alpha}(a-1,N-a)\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}
dα(a−1,N−a)MSE(ni1+nj1)
需要注意的是
α
\alpha
α是这
a
−
1
a-1
a−1个假设检验的联合type I error。