目 录
数学方法解决实际问题,应用数学方法、概念:应用 -> 理论 -> 研究
常用数据分析统计方法:方差分析、回归分析、主成分分析、因子分析、聚类分析、判别分析...
历年赛题方法(全国赛):
- 2010B 上海世博会影响力的定量评估
- 2012A 葡萄酒的评价(回归分析、关联性分析)
- 2013A 车道被占用对城市道路通行能力的影响(回归分析)
- 2017B “拍照赚钱”的任务定价(回归分析、聚类分析)
主要内容:方差分析、回归分析
- 单因素方差分析
- 多因素方差分析
- 一元回归分析
- 多元回归分析
7.1 单因素方差分析
数据分析 统计模型:方差分析模型、回归分析模型、主成分分析模型、聚类分析模型、因子分析模型
7.1.1 方差分析概念
- 在工农业生产和科学研究中,经常遇到这样的问题:影响产品产量、质量的因素很多,我们需要了解在这众多的因素中,哪些因素对影响产品产量、质量有显著影响。为此,要先做试验,然后对测试的结果进行分析。方差分析(Analysis of Variance,简称ANOVA)就是分析测试结果的一种方法。 主要是多组实验数据比较所采用的方法
- 方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。
例如,医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等都可以使用方差分析方法去解决。
7.1.2 单因素方差分析的数据结构
- 若指标观测值X只受一个因素A的影响,检验A在取不同的状态或水平时,对指标值X的影响称为单因素试验。
- 观测值X称为因变量(响应变量),是连续型的数值变量。
- 因素(Factor)A是影响因变量变化的客观条件。
设因素A有r个水平,每个水平下重复观测n次(n:重复数),则观测数据为如下形式
:第i行的平均值;:整个实验数据的算数平均值(总均值)
例7.1.1 三种治疗方案对降血糖的疗效比较
例7.1.1 某医生研究一种四类降糖新药的疗效,按完全随机设计方案治疗糖尿病患者,治疗一月后,记录下每名受试者血糖下降值,资料见下表,问三种治疗方案对降血糖的疗效是否相同?【No,第1组疗效显著高于另外两组!】
每一组,18名受试验者。3个剂量水平,每个剂量水平 重复观测 18次(n=18)。比较均值!
7.1.3 单因素方差分析模型
- 方差分析是从总体上判断多组数据平均数(r≥3)之间的差异是否显著。
- 方差分析将全部数据看成是一个整体,分析构成变量的变异原因,进而计算不同变异来源的总体方差的估值。然后进行F检验,判断各样本的总体平均数是否有显著差异。若差异显著,再对平均数进行两两之间的比较。
假设检验:分析数据之间差异是否显著。
i:代表水平;j:代表重复数
: 观测值 = 治疗方案 + 随机因素
:反映第x种(x = 1\2\3)治疗方案的平均治疗水平。
H0:原假设;各个水平下的均值相同
H0:先假定不同水平下的均值是相等的;三种治疗方案之间是没有差异的。-> 利用 数据分析 进行检验(类似于 反证法)
单因素方差分析法是将样本总偏差的平方和分解成两个平方和(因子平方和和误差平方和),通过这两个平方和之间的比较,导出假设检验的统计量和拒绝域。
总偏差平方和:所有数据的偏差平方和。(求和:每个观测值与总均值之间的差的平方。)
因子平方和:比较各个水平(行)下,数据之间的差异。xi:第i个水平下的样本均值。每个水平下的均值与总均值的偏差平方和。
误差平方和:各个组内的偏差平方和。每一行数据内部的偏差平方和。主要与 随机误差 有关。
自由度:自由取值的变量个数。
定理7.1.1 总变异 = 组间变异 + 组内变异
ST:所有数据之间的差异(xij之间的差异越大,ST就越大)。
: (组间变异\不同治疗方案) + (组内变异)
H0:原假设()
用“均方和”进行比较:消除自由度的影响。MSA、MSE进行比较:观察SA、SE哪个引起的误差偏大。
如果,因子平方和 所占的比例较大:各个因子之间的差异较大;
如果,误差平方和 所占的比例较大:数据之间的差异,主要由随机误差引起。
数据量越多,随机因素多占的比例越大,ST越大,∴ 用均方和进行比较。
:F分布(第一自由度, 第二自由度)
第一自由度:(r-1)、(水平数-1) 第二自由度:(n-r)、(样本观测值的个数-水平数)
H0不合理:SA占的比例越大,F越大,越拒绝原假设。
一般,r ≥ 3 《概率论与数理统计》
拒绝原假设(各个水平下的均值相等):各个水平下的均值 有 显著差异。P值越小(小于α)(α一般为0.05)
例7.1.1 Matlab求解
% 例7.1.1 x = xlsread('C:\Users\lwx\Desktop\chapter7.xlsx','Sheet1','A1:C18') % 读取数据 % 每个水平(列)下 观测值、重复数都是一样的 单因素误差分析:重复数一样的数据容易分析处理 [p,table,stats] = anova1(x)
图1:方差分析表 图2:均值盒形图 箱形图 红线:反映平均血糖下降值(第1个下降值最高)
n:[18 18 18]:样本量 s:残差均方 残差自由度:51 means:均值比较
三列数据:三组治疗方案的治疗效果;18个测试者;行数:重复数。
7.2 双因素方差分析
7.2.1 问题引入
在实际应用中,指标值(因变量)往往受多个不同因素的影响。不仅这些因素会影响指标值,而且这些因素的不同水平交叉也会影响指标值。统计学中把多个因素不同水平交叉对指标值的影响称为交互作用。在多因素方差分析中,交互作用作为一个新因素来处理。 这里介绍两个因素的方差分析,亦称为双因素方差分析。
7.2.2 双因素方差分析的数据结构
- 假设在观测指标X的试验中,有两个变化因素A和B。因素A有r个水平,记作A1 ,A2 ,…,Ar;因素B有k个水平,记作B1 ,B2 ,…,Bk;则A 与B的不同水平组合(i=1,2,…,r;j=1,2,…,k)共有rk个,每个 水平组合称为一个处理,每个处理作m次试验(亦可1次试验),得rkm个观测值,双因素的有重复(无重复)观测数据表7.2.2。
交叉项:重复观测数
A1、B1水平下,有m个观测值。
7.2.3 因素方差分析模型
1. 无交互作用的双因素方差分析模型
在双因素方差分析中,若不考虑两因素的交互作用效应,数据可采用无重复观测。
类似于 单因素方差分析
x11...xrk:交叉水平下的观测值。
:第i行的算数平均(代表因素A的各个水平下的样本平均值);
:第j列的算数平均(代表因素B的各个水平下的样本平均值,因素B的第j个水平下 数据的算数平均);
:所有数据的算数平均(总算数平均值)。
:第i个水平下
在无交互作用下,分析因素A,B的不同水平对试验结果是否有显著影响,即为检验如下假设是否成立:
检验两组假设:假设因素A下,不同水平下的均值没有差异;假设因素B...
类似单因素方差分析数据的处理,在上述定义下,无交互作用双因素方差分析模型中的平方和分解如下。
m=1的情况。
SA:不同行数据之间的差异,因素A的不同水平之间的差异;SB:不同列数据之间的差异。SE:随机误差平方和。
检验两组假设:假设因素A下,不同水平下的均值没有差异;假设因素B... --> 构造两个检验统计量。
在Matlab中进行双因素方差分析,采用命令
[p, table, stats] = anova2(x,reps)
reps:试验数据(每个交叉水平下)重复次数,缺省时为1。
% 例7.2.1 x = [365,350,343,340,323;345,368,363,330,333; 358,232,353,343,308;288,280,298,260,298]'; % 不转置 也行 [p,table,stats] = anova2(x)
此图,表格数据有误。看matlab运行图,即可。
P值越大,越不拒绝原假设。
2. 有交互作用的双因素方差分析模型
在数据分析种,不一定存在交互作用,但是可以通过数据处理来识别有没有交互作用。
交叉水平下的重复数 m。l:交叉水平下的重复数。
:第i行的算数平均(代表因素A的各个水平下的样本平均值);
:第j列的算数平均(代表因素B的各个水平下的样本平均值,因素B的第j个水平下 数据的算数平均);
:因素A、B交叉水平下的平均值。
存在交互作用的情况下,双因素方差分析需要检验如下假设
原假设 H03:假设不存在交互作用。
重复观测、交互作用影响
拒绝原假设(各个水平下的均值相等):各个水平下的均值 有 显著差异。P值越小(小于α)(α一般为0.05)
P值大,不拒绝 原假设。
% 例7.2.2 x = [26,19;24,20;27,23;25,22;25,21; 20,18;17,17;22,13;21,16;17,12]; [p,table,stats] = anova2(x,5) % 5:每个交叉水平下的重复数
7.3 一元线性回归分析
在应用问题研究当中,如果涉及到变量与变量之间的分析,可以借助回归分析来进行研究。
7.3.1 回归分析的概念
研究变量间的关系常有两种。
- 确定性关系(函数关系)
如圆面积与圆半径的关系;价格一定时,商品销售额与销售量的关系等。
- 相关关系
如父亲与子女身高的关系;收入水平与受教育程度间的关系等。
变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下 有一定的定量关系表达式。研究总体(总体规律)
相关关系的类型
不相关:无明显相关关系
回归分析(Regression Analysis)就是研究变量间的相关关系的统计方法,是英国生物学家兼统计学家高尔顿在研究父代与子代身高关系时得到的分析方法。
通过对客观事物中变量的大量观察或试验获得的数据,寻找隐藏在数据背后的相关关系,并给出它们的表达形式——回归函数的估计。
回归分析主要用于研究指标的估计和预测。
通过数据分析,得到 回归表达式(回归函数),对变量进行估计、预测。
设变量y与x(一维或多维)间有相关关系,称x为自变量(解释变量),y为因变量(被解释变量)。
若x为一般变量,在获得x取值后,设y 的取值为一随机变量,可表示为
y = f(x) + ε
上式称为一般回归模型,其中ε称为随机误差项,一般假设 ε~N(0, )。正态分布
7.3.2 一元线性回归模型
:反映 x组数据与y组数据的线性相关程度。
越大,线性相关程度越强。 || ≤ 1
一元线性回归分析内容
(1)回归参数的估计
(2)回归模型的显著性检验
(3)回归参数的显著性检验
1.回归参数的估计
yi:观测值 最小二乘法(参数估计、数据拟合) :yi的回归值
(7.3.3) 求导式
:x、y数据的样本均值
2.回归模型的显著性检验
在模型假定下,可以证明
对模型(7.3.2)的显著性提出假设
H0 : 回归方程不显著,H1 : 回归方程显著
如果回归方程显著,意味着SSE应该比较小,F值应该比较大,所以在显著水平α下,当 (1,n-2)时,拒绝原假设,认为回归方程显著。
3.回归参数的显著性检验
t^2 = F
MATLAB进行回归分析的命令为 regress,其调用方式为 [b,bint,r,rint,stats] = regress(y, x) ,其输出结果为
- b :回归方程的系数
- bint:回归方程系数的95%置信区间
- r: 回归方程的残差
- rint:残差的95%置信区间
- stats: 可决系数、模型检验F值、模型检验P值
7.3.3 一元线性回归分析应用
例7.3.1 为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下表。分析销售收入与广告费用之间的关系。
分析 由表(1)可得模型检验F值为116.3958,P值非常小,即模型是显著的;由表(2)可得模型的决定系数 = 0.866067,接近于1,说明模型拟合效果较好;由表(3)可得回归方程的系数 = 274.5502, = 5.1308,且参数检验的P值较小,显著非零,则回归方程为
根据得到的回归方程可进行因变量y的估计和预测。
7.4 多元线性回归分析
研究多个变量之间相关性的常用统计方法:多元线性回归分析。
7.4.1 多元线性回归模型
实际应用中影响因变量变化的因素往往有多个,例如产出受各种投入要素(资本、劳动力、技术等)的影响;销售额受价格和广告费投入等的影响。 研究 多个变量 影响 因变量的情况。
回归模型中自变量(解释变量)个数为两个及两个以上时,即为多元回归模型。
多元线性回归模型的一般形式为
(p=1:一元线性回归模型)
- ,,..., 称为 偏回归系数 :辅助作用,根据实际问题分析,选择是否保留。
- 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值。
多元线性回归分析内容
- 回归参数的估计
- 回归方程的拟合优度
- 显著性检验
- 共线性诊断
7.4.2 回归参数的估计
:第p个自变量的观测值。
yi的值 由 自变量xi的线性回归值、随机误差 的值 所构成。
Y:因变量构成的列向量;:回归参数向量;:随机误差项构成的向量。
偏导数 = 0
7.4.3 回归方程的拟合优度
7.4.4 显著性检验
多元线性回归分析的显著性检验包括模型的显著性检验和各偏回归系数的显著性检验。
1.模型的显著性检验
2. 偏回归系数的显著性检验
关于模型的显著性检验 不拒绝 原假设 时,模型是不显著的,此时 不必做 偏回归系数的显著性检验。
7.4.5 共线性诊断
多元线性回归分析中,要求回归模型(7.4.1)中自变量之间线性无关。若有两个或两个以上的自变量彼此相关,称模型存在多重共线性。
多重共线性产生的问题
(1)可能会使回归的结果造成混乱,甚至会把分析引入歧途;
(2)可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反 。
检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性。
如果出现下列情况,暗示存在多重共线性。(存在多重共线性,需要对模型进行修正)
- 模型中各对自变量之间显著相关;
- 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著;
- 回归系数的正负号与预期的相反。
7.5 牙膏价格问题
7.5.1 问题描述
某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销 售量与销售价格、广告投入等因素之间的关系,从而预测出在不同价格和广告费用下的销售量。表7.5.1是30个销售周期(4周为1销售周期)中收集到的资料。试根据这些数据建立一个数学模型,分析牙膏的销售量与其它因素的关系,为制定价格策略和广告投入提供决策依据。
7.5.2 问题分析
1.牙膏价格与销售量
由于牙膏是小件生活必需品,对大多数顾客来说,在购买同类产品的牙膏时更多地会在意不同品牌中间的价格差异,而不是他们的 价格本身。因此在研究各个因素对销售量的影响时,用价格差代替公司销售价格更为合适。
通过分析其他厂家牙膏价格与本公司牙膏价格差对销售量的影响关系,建立价格差与销售量的相关模型。
2.广告费用与销售量
通过分析广告费用对销售量的影响关系,建立广告费用与销售 量的相关模型。
7.5.3 模型假设与符号
实际中,由于影响牙膏销售量的因素有很多,根据问题分析和相关数据,提出假设:
(1)假设牙膏销售量主要受价格差和广告费用影响,即其它因素对销售量的影响归入随机误差。
(2)令 y~本公司牙膏销售量;~其它厂家牙膏价格与本公司牙膏价格差;~本公司广告费用。、对y的影响、建立模型。
7.5.4 模型建立与求解
1.牙膏价格差对销售量影响模型
正相关的线性关系
2.广告费用对销售量影响模型
勉强接受:线性关系
建立模型:多尝试,以合理性为前提,越简单越好。
3.牙膏价格差与广告费用对销售量影响模型
由(7.5.1)和(7.5.2),将常数项合并,随机误差项合并,且不考虑牙膏价格差与广告费用对销售量的交叉影响。可得牙膏价格差与广告 费用对销售量影响模型
由数据进行回归分析,见表7.5.2
4.模型改进
只考虑 线性关系
由表7.5.3回归结果可得,修正可决系数为0.874,模型显著性检验的p值为0,模型是显著的。并且各回归参数均显著非0,说明模型 有效,得到牙膏价格差与广告费用对销售量影响模型为
7.5.5 结果分析
由模型(7.5.5)可知,提高本公司牙膏价格,将会减少本公司牙膏销售量,例如,广告费不变时,本公司牙膏价格比其它厂家平均价格 提高1元,估计销售量将会减少约1.468百万支。
另一方面,一定程度上,增加广告费用将会提高销售量,但过 度增加广告费用就会增加成本。
根据模型(7.5.5),只要给定了,,代入就可以对销售量进行估计和预测,还可以进行一定的置信度下的区间预测。如当=0.2,=6.5时,可以计算得到销售量的预测值约为8.379(百万支),其95%的预测区间为[7.874, 8.863]。
在公司管理中,这个预测上限可以用来作为公司的生产和库存数量;而这个预测下限可以用来较好地把握公司的现金流,因为到时至少有7.874百万支牙膏可以有把握的卖出去,可以回来相应的销售款。
若考虑牙膏价格差与广告费用两个因素间可能会有交互作用,可以将二者的乘积来表示这个作用对销售量的影响,对原来的模型进行改进,
同理,可对模型7.5.6进行回归分析,研究模型的有效性和显著性(略)。
7.6 方差分析与回归分析的SPSS实现
数据统计分析:Matlab、R、SPSS
7.6.1 SPSS软件概述
1 SPSS版本与安装
SPSS的版本每年更新,当前最新为SPSS26.0,较新版本都有中文版,这里以2013年的SPSS22.0中文版为例介绍其安装及应用。
2 SPSS界面
SPSS的主要界面 有 数据编辑窗口 和 结果输出窗口。
SPSS软件在其基本界面上集成了数据录入、转换、检索、统计分析、作图、制表及编辑等功能;采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。
数据编辑窗口:标题栏、菜单栏、工具栏、状态栏、数据视图、变量视图
控制菜单图标、窗口名称、窗口控制图标、窗口控制按钮
变量视图
3 SPSS特点
- (1)囊括了各种成熟的统计方法与模型,为统计分析用户提供了全方位的统计学算法,为各种研究提供了相应的统计学方法。
- (2)提供了各种数据准备与数据整理技术。
- (3)自由灵活的表格功能。
- (4)各种常用的统计学图形。
SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮。SPSS是第一个采用人机交互界面的统计软件,非常容易学习和使用。
SPSS软件基本操作可通过点击鼠标来完成,有一定统计基础且熟悉Windows一般操作的应用者参考它的帮助系统 基本上 可以自学使用;除了数据录入及部分命令程序等少数输入工作需要使用键盘键入外,对于常见的统计分析方法完全可以通过对“菜单”、“对话框”的操作完成,无需编程。
4 SPSS数据
SPSS能够与常用的数据文件格式互交。 Excel文件
SPSS数据文件中,变量有三种的基本类型:数值型、字符型和日期型。
SPSS的文件类型:
(1)数据文件:拓展名为.sav
(2)结果文件:拓展名为.spv
(3)图形文件:拓展名为.cht
(4)语法文件:拓展名为.sps
7.6.2 SPSS与方差分析
【例7.1.1、例7.2.2 Excel文件:链接:https://pan.baidu.com/s/1PLXyYCelCfOGgMPbl7T2AA 提取码:zjxs】
1 单因素方差分析
生成数据:1、导入数据;2、手工录入
54条数据:因变量(血糖下降值)记为A,分组变量(3个组别)记为g。Excel表中,第一行为变量名。
单因素方差分析
多重比较:将 各个水平下的均值 进行比较。Tukey:针对重复次数一样的多重比较。显著性水平 默认 0.05。
左边:输出列表;右边:输出结果(概括性描述)。
表2:方差极性检验(显著性-P值:0.871) 表3:方差分析表(因子平方和、误差平方和;总平方和)
只要P值小于0.05,就认为 是有 显著差异的。
根据多重比较的结果,进行分类得到的分类表。
均值图 1、2之间,有显著差异;2、3无显著差异。
2 双因素方差分析
【例7.1.1、例7.2.2 Excel文件:链接:https://pan.baidu.com/s/1PLXyYCelCfOGgMPbl7T2AA 提取码:zjxs】
双因素并且考虑交互作用的方差分析:将分析数据作为因变量指标;将时段、路段两个因素 建立 两个分组变量。
将Excel表中的数据,导入SPSS。
选择 “模型”:
绘图
-> 点击“添加” ->
事后多重比较
选项
7.6.3 SPSS与回归分析
SPSS回归分析过程
牙膏价格问题的回归分析
表1:自变量、因变量、标准差...描述结果;表2:相关系数矩阵表---研究共线性;
模型汇总统计量计算 Model Summary;ANOVA:回归分析的方差分析表;
coefficients:回归系数估计
不考虑x2(将x2从模型中去除!)