http://www.datasoldier.net/post/anova.html
案例:
为了提高收益,农场主开始饲养猪,现在,有四种不同品牌的饲料推广员来到农场,都说自己的饲料效果最好,农场主难以在他们之中做出选择,因此,他请了你帮助他选择最好的饲料来饲养猪。
作为数据分析师,你需要获取数据作为你观点的支撑,现在问题就摆在面前,你很自信这个问题一定能够通过数据分析得以解决。根据经验,你为此专门设计一个数据分析的流程,便于准确、严密的帮助农场主找到答案。
【1.描述问题】
你从农场主那里得知,好的饲料可以让猪快速增肥,使猪体重增高,因此你决定用猪体重作为衡量饲料好与坏的标准和指标,也可以理解为不同质量的饲料将对猪体重产生影响,在农场主其他服务不变、分组合理的情况下,饲料是影响猪体重增加的主要因素。
因此你将问题定义为:在喂食不同饲料的影响下,通过比较猪体重的增加情况,判断出哪种饲料效果最好。
【2.方法选择】
影响因素:饲料;考量指标:体重;这是一个比较典型的“单因素X影响指标Y“的问题,影响因素X即变量“饲料”,它有4个变量值,分别是A饲料、B饲料、C饲料和D饲料,是分类变量,显然A、B、C、D本身不具有数量型,因此回归分析是行不通的,如果你熟悉统计方法,则很容易想到用方差分析,而且是单因素方差分析。
农场主现在有19头猪,你决定用这19头猪做一个试验,分为4组,每组用一种饲料,一段时间后称重,比较4组猪体重数据有无不同,差异性是否具有统计学意义,从而判断哪种饲料最适合农场主,便于他今后大批量购买使用且获得最大收益。
方法选择:单因素方差分析,分析工具:SPSS,为什么选择SPSS
【3.获取数据】这是个试验,一段时间后,分别为四组猪称体重,获取到如下数据:
【4.数据分析】
启动SPSS,按照SPSS方差分析对数据输入格式的要求,导入如上试验分组数据,分组方差齐次对于方差分析比较敏感,齐次时对方差分析的结果影响将大大降低,因此有必要在方差分析的同时作一检查。“均值比较”——“One way Anova”,因变量Y选择“体重”,因子X选择“饲料”,“选项”卡中选择“方差同质性检验”,确定,要求SPSS执行这个过程,将产生两个重要结果。
-
重要结果1:方差齐次检验表
方差其次原假设:齐次,概率现在为0.995,大概率事件,也就是说分组方差齐次,适合做方差分析。
-
重要结果2:方差分析表
方差分析原假设:分组无差异,现在是小概率事件,即不同饲料对体重有显著影响。
前面的两个结果告诉我们,使用不同饲料的确对增加猪的体重有着非常大的作用,可是,你从中看出哪种饲料效果最好了吗?没有,我们只看出了不同饲料对猪体重的提高具有显著的差异,到底哪个饲料更好,从这两个表格中我们不得而知。此时,就需要调用SPSS方差分析的杀手锏,它是“多重比较”或者叫“两两比较”,我们让SPSS帮主我们在4中饲料中进行两两比较,从而告诉我们,哪个饲料最好。操作:“均值比较”——“One way Anova”,因变量Y选择“体重”,因子X选择“饲料”,“两两比较”卡,我推荐使用Duncan这个方法,打钩即可,同时在“选项”卡中选择“均值图”选项,用立体图表的形式会让结果看起来更加直观。
-
重要结果3:两两比较表
可以清楚的看到4种饲料下猪的平均体重,很显然D饲料分组中猪的体重增量最大。
-
重要结果4:分组均值折线图
通过两两对比,我们非常清晰的看到D饲料对应的猪体重比其他3种饲料的更好,也就是增肥效果更强,这种强效果在均值折线图里面显现的淋漓尽致,还用我告诉你答案吗?我想,农场主大概看一眼就知道他应该怎么做了。
【5.结论和观点】
进行到现在,我们采用了一种“定义问题”——“分析问题”——“解决问题”的思路,通过与农场主的沟通了解,我们设计了一个分组试验,通过科学的方法,我们基本得到答案,不同饲料对猪体重增加都有非常好的效果,然而相比其他三种,我们有理由认为,D饲料的效果最好,推荐农场主今后采购此种饲料长期喂养。
当然,有一个问题必须申明,这个结果有这样的假设“农场主其他服务不变的情况下,分组相对合理”,因此我们的结论是有一定基础的,如果农场主饲养的猪数量很大,这种假设对结论和观点的影响将大大降低,总体而言,相信D饲料效果最佳是合理的。
A、B、C饲料的推广人员或许很不服气,尽管他们口若悬河,可是在有力证据下,相信他们不得不写一份报告给各自的老板,内容大概是:我们的产品在市场上不具有竞争力, 这是数据分析告诉我们的!
注:回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。