Python 数学建模——方差分析

最新推荐文章于 2024-09-10 22:13:06 发布

Desire.984

最新推荐文章于 2024-09-10 22:13:06 发布

阅读量672

点赞数 6

分类专栏： Python 数学建模文章标签：数学建模 python 概率论

本文链接：https://blog.csdn.net/weixin_72137075/article/details/142109255

版权

Python 数学建模专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

前言

方差分析也是概率论中非常重要的内容，有时数学建模需要用到。方差分析是干什么的？如果说假设检验用于分析两个总体之间的均值 $\mu_1,\mu_2$ 是否存在显著的差别，那么方差分析就是分析两个以上总体之间的均值是否存在显著的差别。

单因素方差分析

用途：已知一个量 $A$ 可能会影响 $X$ ， $A$ 的不同取值可能会造成 $X$ 的分布函数不同。判定 $A$ 是不是真的会影响 $X$ 。（需要默认 $X$ 服从正态分布，且 $A$ 不影响正态分布的方差，可以在论文的假设中给出；当 $A$ 只有两个取值的时候，就退化成了假设检验）

建议只看下面的“用途”概括以及代码部分，原理部分只是简单介绍且生涩难懂。

原理

假设有 $r$ 个正态总体 ${X_i}\sim N({{\mu }_{i}},{{\sigma }^{2}})(i=1,2,\cdots ,r)$ 相互独立，现在我们给出假设 ${H_0}:{{\mu }_{1}}={{\mu }_{2}}=\cdots ={{\mu }_{r}}$ 。从第 $i$ 个正态总体中抽取了 $n_i$ 个样本，并将其均值记作 $\overline{X}_i$ 。 $n=\sum_{i=1}^{r}{{{n}_{i}}}$ ， $\overline X$ 是所有的 $n$ 个样品的均值。

单因素方差分析，正是通过对要分析的因素 $A$ 取 ${{A}_{1}},\cdots ,{{A}_{r}}$ 这不同的 $r$ 个值，对于每个值分别获取一个总体，通过判断各个总体的均值是否有显著差异（即假设 $H_0$ 是否成立）来判断因素 $A$ 是否对总体有显著影响。

我们构造下面三个统计量：
${{S}_{T}}=\sum_{i=1}^{r}{\sum_{j=1}^{{{n}_{i}}}{(}}{{X}_{ij}}-\overline{X}{{)}^{2}}=\sum_{i=1}^{r}{\sum_{j=1}^{{{n}_{i}}}{{{X}_{ij}^{2}}-}}n{{\overline{X}}^{2}}$ ${{S}_{E}}=\sum_{i=1}^{r}{\sum_{j=1}^{{{n}_{i}}}{(}}{{X}_{ij}}-\overline{X}_i{{)}^{2}}=\sum_{i=1}^{r}{\sum_{j=1}^{{{n}_{i}}}{{{X}_{ij}^{2}}-}}\sum_{i=1}^{r}{{{n}_{i}}}{{\overline{X}_i}^{2}}$ ${{S}_{A}}=\sum_{i=1}^{r}{{{n}_{i}}}(\overline{X}_i-\overline{X}{{)}^{2}}={{S}_{T}}-{{S}_{E}}$

其中 $S_T$ 反映了所有样本之间的差异情况， $S_E$ 反映了各组内部样本之间的差异情况（即同一组内随机抽样产生的误差）， $S_A$ 反映了各组之间由于因素水平不同而引起的差异（不同水平下的差异即条件误差）。
当假设 $H_0$ 成立时，应当有 $S_E,S_A$ 相互独立，且统计量 $F=\cfrac{{{S}_{A}}/(r-1)}{{{S}_{E}}/(n-r)}\sim F(r-1,n-r)$ 。若 $F<{{F}_{\alpha }}(r-1,n-r)$ （其中 $\alpha$ 是显著性水平），则接受原假设，认为总体之间的均值不存在显著差别。

$F$ 值位于区间	$0,{{F}_{0.05}}(r-1,n-r)]$	${{F}_{0.05}}(r-1,n-r),{{F}_{0.01}}(r-1,n-r)]$	$({{F}_{0.01}}(r-1,n-r),+\infty )$
$\alpha$ 值位于区间	$[0.05, 1]$	$[0.01, 0.05)$	$[0, 0.01)$
对于均值的说法	差别不显著	差别显著	差别高度显著

核心代码

核心代码如下：

import statsmodels.api as sm

# 此处的x,a是长度相同的一维数组。第 i 个数据的值是a[i]，属于第x[i]个样本总体。比如：
x = [1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5]
a = [256 242 280 298 254 330 290 295 250 277 230 302 248 280 305 289 236 252
 220 252]

d={'x':x,'y':a} #构造求解需要的字典
model = sm.formula.ols("y~C(x)",d).fit()  #构建模型
anovat = sm.stats.anova_lm(model)  #进行单因素方差分析
print(anovat)

运行的结果示例如下，需要用到C(x)行PR(>F)列的内容。这个 $0.110913$ 是使得 $F<{{F}_{\alpha }}(r-1,n-r)$ 成立的最大 $\alpha$ ，也就是 $F$ 属于区间 $0,{{F}_{0.05}}(r-1,n-r)]$ ，从而差别不显著。

            df   sum_sq   mean_sq         F    PR(>F)
C(x)       4.0   6125.7  1531.425  2.261741  0.110913
Residual  15.0  10156.5   677.100       NaN       NaN

双因素方差分析

用途：有两个量 $A$ ， $B$ 都会影响到随机变量 $X$ 的分布。单方面地，分别验证 $A$ 是否影响 $X$ 、 $B$ 是否影响 $X$ 。综合地，判断 $A, B$ 对 $X$ 的影响是否有交互效应。

数学模型

总体 $X$ 会受到 $A$ 、 $B$ 两个因素的影响，仿照单因素方差分析的思路，我们令因素 $A$ 取 $s$ 个不同水平 ${{A_1}},\cdots ,{{A}_{s}}$ ，令因素 $B$ 取 $r$ 个不同水平 ${{B_1}},\cdots ,{{B}_{r}}$ 。
对于每一组因素组合 ${{B}_{i}},{{A}_{j}})$ ，都取 $t$ 个样本，得到一个总体 $X_{ij}$ 。我们认为这个总体服从正态分布，即 ${{X}_{ij}}\sim N({{\mu }_{ij}},{{\sigma }^{2}})$ 。那么就有 ${{\varepsilon }_{ijk}}={{X}_{ijk}}-{{\mu }_{ij}}\sim N(0,{{\sigma }^{2}})$ 。
现在获取下面几个统计量：

所有总体的均值 $\displaystyle\mu =\frac{1}{rs}\sum_{i=1}^{r}{\sum_{j=1}^{s}{{{\mu }_{ij}}}}$ 。
水平 $A_j$ 对指标的效应 $\displaystyle{{\alpha }_{j}}={{\mu }_{·j}}-\mu =\frac{1}{r}\sum_{i=1}^{r}{{{\mu }_{ij}}}-\mu$ 。
水平 $B_i$ 对指标的效应 $\displaystyle{{\beta }_{i}}={{\mu }_{i·}}-\mu =\frac{1}{s}\sum_{j=1}^{s}{{{\mu }_{ij}}}-\mu$ 。
水平 $B_i$ 与 $A_j$ 对指标的交互效应 ${{\gamma }_{ij}}={{\mu }_{ij}}-\mu -{{\alpha }_{j}}-{{\beta }_{i}}$ 。

建立的原假设有三个：

${{H}_{01}}:{{\alpha }_{j}}=0(j=1,2,\cdots ,s)$ 。
${{H}_{02}}:{{\beta }_{i}}=0(i=1,2,\cdots ,r)$ 。
${{H}_{03}}:{{\gamma }_{ij}}=0(i=1,2,\cdots ,r;j=1,2,\cdots ,s)$ 。

分析依据

一般来说，至少要讨论假设 ${{H}_{01}},{{H}_{02}}$ ，当因素 $A, B$ 之间可能存在交互作用时，还需要讨论假设 $H_{03}$ 。下面直接介绍含有交互效应的双因素方差分析。
说明一下一些均值：

所有总体的均值 $\displaystyle\overline{X}=\frac{1}{rst}\sum_{i=1}^{r}{\sum_{j=1}^{s}{\sum_{k=1}^{t}{{{X}_{ijk}}}}}$ 。
因素 $B_i,A_j)$ 所确定总体的均值 $\displaystyle\overline{{{X}_{ij·}}}=\frac{1}{t}\sum_{k=1}^{t}{{{X}_{ijk}}}$ 。
因素 $A_j$ 所确定 $r$ 个总体的均值 $\displaystyle\overline{{{X}_{·j·}}}=\frac{1}{rt}\sum_{i=1}^{r}{\sum_{k=1}^{t}{{{X}_{ijk}}}}$ 。
因素 $B_i$ 所确定 $s$ 个总体的均值 $\displaystyle\overline{{{X}_{i··}}}=\frac{1}{st}\sum_{j=1}^{s}{\sum_{k=1}^{t}{{{X}_{ijk}}}}$ 。

与单因素方差分析类似，可以构造出以下的统计量：
${{S}_{E}}=\sum_{i=1}^{r}{\sum_{j=1}^{s}{\sum_{k=1}^{t}{(}}}{{X}_{ijk}}-\overline{{{X}_{ij·}}}{{)}^{2}}$ ${{S}_{A}}=rt\sum_{j=1}^{s}{(}\overline{{{X}_{·j·}}}-\overline{X}{{)}^{2}}$ ${{S}_{B}}=st\sum_{i=1}^{r}{(}\overline{{{X}_{i··}}}-\overline{X}{{)}^{2}}$ ${{S}_{AB}}=t\sum_{i=1}^{r}{\sum_{j=1}^{s}{(}}\overline{{{X}_{ij·}}}-\overline{{{X}_{i··}}}-\overline{{{X}_{·j·}}}+\overline{X}{{)}^{2}}$

其中 $S_E$ 为误差平方和， $S_A$ 为因素 $A$ 的平方和（或列间平方和）， $S_B$ 为因素 $B$ 的平方和（或行间平方和）， $S_{AB}$ 为交互作用的平方和（或格间平方和）。那么：

${{F_A}}=\displaystyle\cfrac{\cfrac{{{S}_{A}}}{s-1}}{\cfrac{{{S}_{E}}}{rs(t-1)}}\sim F(s-1,rs(t-1))$ ，若 ${{F_A}}<{{F_\alpha }}(s-1,rs(t-1))$ 则接受原假设。即因素 $A$ 无显著影响。
${{F_B}}=\displaystyle\cfrac{\cfrac{{{S}_{B}}}{r-1}}{\cfrac{{{S}_{E}}}{rs(t-1)}}\sim F(r-1,rs(t-1))$ ，若 ${{F_B}}<{{F_\alpha }}(r-1,rs(t-1))$ 则接受原假设。即因素 $B$ 无显著影响。
${{F}_{AB}}=\cfrac{\cfrac{{{S}_{AB}}}{(r-1)(s-1)}}{\cfrac{{{S}_{E}}}{rs(t-1)}}\sim F((r-1)(s-1),rs(t-1))$ ，若 ${{F}_{AB}}<{{F_\alpha }}((r-1)(s-1),rs(t-1))$ 则接受原假设。即因素 $A, B$ 无显著交互作用。

典型代码

#程序文件Pex4_24.py
import numpy as np
import statsmodels.api as sm

# 构造数据
y=np.array([[11, 11, 13, 10], [10, 11, 9, 12],
         [9, 10, 7, 6], [7, 8, 11, 10],
         [5, 13, 12, 14], [11, 14, 13, 10]]).flatten()
A=np.tile(np.arange(1,5),(6,1)).flatten()
B=np.tile(np.arange(1,4).reshape(3,1),(1,8)).flatten()

# 数据字典——此处的A,B,y是长度相同的一维数组。第 i 个数据的值是y[i]，属于因素(A[i],B[i])所确定的样本总体。比如：
d={'x1':A,'x2':B,'y':y}
model = sm.formula.ols("y~C(x1)+C(x2)+C(x1):C(x2)",d).fit() #注意交互作用公式的写法
anovat = sm.stats.anova_lm(model) #进行双因素方差分析
print(anovat)
"""
               df     sum_sq    mean_sq         F    PR(>F)
C(x1)         3.0  19.125000   6.375000  1.330435  0.310404
C(x2)         2.0  40.083333  20.041667  4.182609  0.041856
C(x1):C(x2)   6.0  18.250000   3.041667  0.634783  0.701009
Residual     12.0  57.500000   4.791667       NaN       NaN
"""