数学建模:方差分析模型
1.方差分析模型引入
考虑的模型,它的自变量是只能取0,1两个值的示例变量。这种变量往往比较两个多个因素的某种效益存在与否。比如考试及格为0,不及格为1.
方差分析的实质:假设检验问题
一个复杂的事物,其中往往有许多因素互相制约又互相依存。
方差分析的目的是通过数据分析找出对该事物有显著影响的因素, 各因素之间的交互作用,以及显著影响因素的最佳水平等。
方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来 源的部分离差平方和,这是一个很重要的思想。
1.2 方差分析模型需要满足的条件
要求所考虑样本满足的条件
① 独立性:各组数据相互独立、互不相关
② 正态性:对于偏态分布的变量通过对数、倒数、平方根变化等方法,变为正态分布或者近似正态分布再来进行方差分析
③ 方差齐性
1.3 方差分析的主要用途
使用场景:
-
制造商有两种不同的方法来制造灯泡。 他们想知道一个过程是否比另一个好。
-
一组患者正在尝试三种不同的疗法:咨询、药物治疗和生物反馈。你想知道哪一种疗法是否比其他的更好。
方差分析主要用途:
①均值差别的显著性检验
②分离各有关因素并估计其对总变异的作用
③分析因素间的交互作用
④方差齐性检验
1.4 例子
例1:比较三种小麦品种的优劣,选六块面积相等,土质肥沃程度一样的田地,每种小麦播种在 其中的两块田内,给予完全相同的田间管理。问 每块田小麦的产量?
用
y
i
j
y_{ij}
yij表示第
i
i
i种小麦的第
j
j
j块田的产量。对
y
i
j
y_{ij}
yij作如下分析:
y
i
j
=
μ
+
α
i
+
e
i
j
y_{ij} = \mu+\alpha_i+e_{ij}\\
yij=μ+αi+eij
μ
\mu
μ:总均值
α i \alpha_i αi:第i种小麦品种的效益
e
i
j
e_{ij}
eij:是随机误差,表示所有其他未知控制因素 以及各种误差的总效应。
1
号
小
麦
2
块
田
地
产
量
:
{
y
11
=
μ
+
α
1
+
e
11
y
12
=
μ
+
α
1
+
e
12
2
号
小
麦
2
块
田
地
产
量
:
{
y
21
=
μ
+
α
2
+
e
21
y
22
=
μ
+
α
2
+
e
22
1
号
小
麦
2
块
田
地
产
量
:
{
y
31
=
μ
+
α
3
+
e
31
y
22
=
μ
+
α
3
+
e
32
1号小麦2块田地产量:\begin{cases} y_{11} = \mu+\alpha_1+e_{11}\\ y_{12} = \mu+\alpha_1+e_{12}\\ \end{cases}\\ 2号小麦2块田地产量:\begin{cases} y_{21} = \mu+\alpha_2+e_{21}\\ y_{22} = \mu+\alpha_2+e_{22}\\ \end{cases}\\ 1号小麦2块田地产量:\begin{cases} y_{31} = \mu+\alpha_3+e_{31}\\ y_{22} = \mu+\alpha_3+e_{32}\\ \end{cases}
1号小麦2块田地产量:{y11=μ+α1+e11y12=μ+α1+e122号小麦2块田地产量:{y21=μ+α2+e21y22=μ+α2+e221号小麦2块田地产量:{y31=μ+α3+e31y22=μ+α3+e32
例2:Y:药效度量指标比较三种药治疗某种疾病的效果。
假设每种药各有n个人服用, 采用双盲方法:病人不知道自己服用哪种药;医生也不知道哪个病人服用哪种药
y
i
j
y_{ij}
yij为服用第i种药的 第j个病人的药效测量值
y
i
j
=
μ
+
α
i
+
e
i
j
i
=
1
,
2
,
3
,
j
=
1
,
.
.
.
,
n
y_{ij} = \mu+\alpha_i+e_{ij}\qquad i = 1,2,3,j=1,...,n\\
yij=μ+αi+eiji=1,2,3,j=1,...,n
μ
\mu
μ:总平均
α i \alpha_i αi:表示第 i i i种药的效应
e i j e_{ij} eij:表示随机误差
模型:
[
y
11
⋮
y
1
n
y
21
⋮
y
2
n
y
31
⋮
y
3
n
]
=
[
1
1
0
0
⋮
⋮
⋮
⋮
1
1
0
0
1
0
1
0
⋮
⋮
⋮
⋮
1
0
1
0
1
0
0
1
⋮
⋮
⋮
⋮
1
0
0
1
]
[
μ
α
1
α
2
α
2
]
+
[
e
11
⋮
e
1
n
e
21
⋮
e
2
n
e
31
⋮
e
3
n
]
\begin{bmatrix} y_{11}\\ \vdots\\ y_{1n}\\ y_{21}\\ \vdots\\ y_{2n}\\ y_{31}\\ \vdots\\ y_{3n} \end{bmatrix}= \begin{bmatrix} 1&1&0&0\\ \vdots&\vdots&\vdots&\vdots\\ 1&1&0&0\\ 1&0&1&0\\ \vdots&\vdots&\vdots&\vdots\\ 1&0&1&0\\ 1&0&0&1\\ \vdots&\vdots&\vdots&\vdots\\ 1&0&0&1 \end{bmatrix}\begin{bmatrix}\mu\\\alpha_1\\\alpha_2\\\alpha_2\end{bmatrix}+\begin{bmatrix} e_{11}\\ \vdots\\ e_{1n}\\ e_{21}\\ \vdots\\ e_{2n}\\ e_{31}\\ \vdots\\ e_{3n} \end{bmatrix}
⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡y11⋮y1ny21⋮y2ny31⋮y3n⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡1⋮11⋮11⋮11⋮10⋮00⋮00⋮01⋮10⋮00⋮00⋮01⋮1⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤⎣⎢⎢⎡μα1α2α2⎦⎥⎥⎤+⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡e11⋮e1ne21⋮e2ne31⋮e3n⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤
y = X β + e y\qquad =\quad\qquad X\qquad\beta\quad\qquad+\qquad e y=Xβ+e
1.5方差分析模型
方差分析:源于农业田间试验。
某个农业试验基地引进a种小麦品种 将一块田划分为面积相等的n个小块 n1块种第一种小麦,n2块种第二种小麦,等(n1+n2 +…+na…=n) 只考虑小麦品种,忽略其他因素(施肥量、浇水等对这n块田都控 制在相同状态下)
2.单因素方差分析模型
2.1 单因素概念
① 考虑的因素:小麦品种
② 每种具体的品种 : 称为小麦品种这个因素的一个“水平”
所考虑问题为 “单因素a个水平的问题”
用 y i j y_{ij} yij表示第 i i i种小麦的第 j j j块田的产量, i = 1 , . . . , a ; j = 1 , . . . , n i i = 1,...,a;j=1,...,n_i i=1,...,a;j=1,...,ni
对固定的 i i i, y i 1 , y i 2 , . . . , y i , n i y_{i1},y_{i2},...,y_{i,ni} yi1,yi2,...,yi,ni分别为种植第 i i i种小麦在第 n i n_i ni块田的产量
2.2单因素方差分析模型
2.2.1 假设检验
{ y i j = μ + α i + e i j e i j 服 从 N ( 0 , σ 2 ) ∑ i = 1 a n i α i = 0 \begin{cases} y_{ij} = \mu+\alpha_i+e_{ij}\\ e_{ij}服从N(0,\sigma^2)\\ \sum\limits_{i=1}^{a} n_i\alpha_i=0 \end{cases} ⎩⎪⎪⎨⎪⎪⎧yij=μ+αi+eijeij服从N(0,σ2)i=1∑aniαi=0
- 假设检验
检验模型的因素A的a个水平下的均值是否有显著的差异
假设检验:
$$
H_0:\mu_1=\mu_2=\cdots=\mu_a
上
述
假
设
若
成
立
则
等
价
于
证
明
了
:
上述假设若成立则等价于证明了:
上述假设若成立则等价于证明了:
H_0:\alpha_1=\alpha_2=\cdots=\alpha_a=0
$$
即若H0被接受则有因素A的各水平效应之间没有显著的差异
H0被拒绝,则因素A的各水平效应之间有显著的差异
2.2.2统计量的推导
- S S T SS_T SST
S S T = ∑ i = 1 a ∑ j = 1 n i ( y i j − y ‾ ) 2 = ∑ i = 1 a ∑ j = 1 n i [ ( y i j − y ‾ i ) 2 + ( y ‾ i − y ‾ ) 2 ] = S S E + S S A SS_T=\sum\limits_{i=1}^{a}\sum\limits_{j=1}^{n_i}(y_{ij}-\overline y)^2=\sum\limits_{i=1}^{a}\sum\limits_{j=1}^{n_i}[(y_{ij}-\overline y_i)^2+(\overline y_i-\overline y)^2]=SS_E+SS_A SST=i=1∑aj=1∑ni(yij−y)2=i=1∑aj=1∑ni[(yij−yi)2+(yi−y)2]=SSE+SSA
- 统计量
F = S S A / ( a − 1 ) S S E / ( n − a ) F = \frac{SS_A/(a-1)}{SS_E/(n-a)} F=SSE/(n−a)SSA/(a−1)
F值无限接近于1时,H0成立。
若H0不成立时,则F值倾向于较大。
F
=
S
S
A
/
(
a
−
1
)
S
S
E
/
(
n
−
a
)
∽
F
a
−
1
,
n
−
a
F=\frac{SS_A/(a-1)}{SS_E/(n-a)}\backsim F_{a-1,n-a}
F=SSE/(n−a)SSA/(a−1)∽Fa−1,n−a
3.SPSS单因素分析实例说明
现有工厂A、B、C,生产同一型号的电池,为比较其质量,从各厂的产品中随机抽取6只电池,经测试得其寿命(h)如下:
(1)在显著性水平
α
=
0.05
\alpha=0.05
α=0.05下检验三厂生产的电池平均寿命有无显著差异?列出方差分析表;
(2)记μs,μB和μc分别为三厂生产的电池平均寿命,写出均值之差
μ
A
−
μ
B
\mu_A-\mu_B
μA−μB,
μ
A
−
μ
C
\mu_A - \mu_C
μA−μC,
μ
B
−
μ
C
\mu_B-\mu_C
μB−μC 的95%的置信区间
(1)解:
在两两比较选项中设置显著性水平为0.05:

点击确定得到结果输出,方差分析表如下:
0.000<0.05 拒绝原假设: 认为三个厂产出的电池种间有显著差异,即电池厂商对电池寿命有显著影响,到底哪一种更好,还需要进行两两比较。
(3)置信区间

由上表可知:
μ
A
−
μ
B
的
置
信
区
间
:
[
17.94
,
7.39
]
μ
A
−
μ
C
的
置
信
区
间
:
[
1.94
,
−
8.61
]
μ
B
−
μ
C
的
置
信
区
间
:
[
−
10.72
,
−
21.28
]
\mu_A-\mu_B的置信区间:[17.94,7.39]\\ \mu_A-\mu_C的置信区间:[1.94,-8.61]\\ \mu_B-\mu_C的置信区间:[-10.72,-21.28]\\
μA−μB的置信区间:[17.94,7.39]μA−μC的置信区间:[1.94,−8.61]μB−μC的置信区间:[−10.72,−21.28]
从上可知三个厂的电池寿命的排行为:
μ C > μ A > μ B \mu_C>\mu_A>\mu_B μC>μA>μB