excel----检验

最新推荐文章于 2024-02-02 01:00:00 发布

老鸭胆

最新推荐文章于 2024-02-02 01:00:00 发布

阅读量2.8k

点赞数 1

分类专栏： excel（学习记录）文章标签： excel 检验统计学

本文链接：https://blog.csdn.net/weixin_45441862/article/details/121853332

版权

excel（学习记录）专栏收录该内容

24 篇文章 39 订阅

订阅专栏

本文详细介绍了统计学中的检验原理，包括独立性检验、t检验和方差分析。通过实例解析了如何通过样本数据来判断总体特征，以及在商业决策中的应用，如产品销售业绩分析和顾客行为研究。检验过程涉及建立假设、计算统计量和判断是否拒绝假设，强调了不能仅凭主观判断，而应依赖于统计方法进行决策的重要性。

摘要由CSDN通过智能技术生成

一、概念

检验是统计学的基本原理之一，它通过样本来判断总体（全体数据）是否具有统计学的意义。具有统计学的意义指的是由样本来推测总体的特征，得出与总体特征有关的结论。

emmmmm，貌似就算知道了概念还是不知道它是干什么用，为什么要用它？

很多时候要得到所需的全部数据，从客观条件和技术操作上来讲非常困难，即使能够做到也会过度消耗时间和人力成本，在这种情况下，通常会使用样本数据，很多时候样本数据很大程度上反映了总体的特征。所以用样本推测总体的特征并得出与总体特征有关的结论就是检验。

二、检验的一般步骤

步骤一：结合总体的特征建立假设（通常为被拒绝的假设）
步骤二：计算制作概率分布所需的值（称为统计量或检验统计量）
步骤三：设定5%或10%这种拒绝假设的标准（这被称为拒绝区），判断通过样本求出的统计量是否在该拒绝区内，若在拒绝区内则拒绝假设，若不在拒绝区内则不拒绝假设。

三、简单例子说明

例子：

一枚硬币，投掷10次，有8次是正面朝上，这个现象能用偶然来解释吗？或者说这枚硬币投掷后比较容易正面朝上，也就是说正反面朝上的概率各为50%的假设是不成立的？

步骤一：这个例子假设“硬币正面朝上的概率为50%”，如果得出的统计量的概率是低于5%的就拒绝假设也就是结论为它较容易投掷出正面。

步骤二：利用二项分布的概率原理计算出投掷10次硬币出现的正面或反面朝上的概率，并用图表表示以上的结果。

下图是使用二项分布以正、反面出现的概率各为50%计算出的结果。

步骤三：由上图可以看出，10次中出现8次正面朝上的概率为4.4%<5%，因此拒绝前述假设，得出这枚硬币投掷正、反面朝上的概率不是各50%的这个结论。

好吧，其实看到了这里还是不太明白，整一个检验的过程和意义，接下来，看看检验的实际应用。

四、实际应用

1、独立性检验

（1）如下图所示，表示的是某段时间内A国到E国的A、B产品的销售业绩。（称为观察数据1）

问题一：它能说明A、B产品在不同国家的销售情况相差很大吗？

问题二：这些样本数据可以推出什么有关所有时间段内数据（即总体）的结论吗？

分析的目的：假如从结果得知A产品在某国的销售业绩高于其他国家，则需要决定是否在该国增加对A产品的推广经费。

但是，单从上表的数据，不同的人得出的主观性结论也会各不相同。从上表的数据来看我们可以直接得出A产品在B国卖的最好，B产品在A国卖的最好吗？

据此，尝试用统计方法通过样本来推测某国有或没有某产品的（不能仅用偶然来解释的）销售倾向。这里应选择独立性检验的方法。先建立假设“产品在不同国家的销售情况不存在差异”，然后检验其是否正确，如果统计结果拒绝假设，即可得出“产品在不同国家的销售情况存在差异”的结论。

步骤一：结合总体的特征建立假设

假设“A、B产品在不同国家的销售情况不存在差异”。检验的思路是在设想存在差异的前提下，建立相反的假设，再通过否定假设来进行验证。

步骤二：计算制作概率分布所需的值（称为统计量或检验统计量）

销售情况不存在差异则所有值都服从期望值，在进行独立检验时使用以下公式所表示的“检验统计量”，另外已知此检验量服从x^2值（卡方检验）的概率分布。

首先求出期望值：（如果产品在不同国家的销售情况不存在差异，那么各种产品无论在哪个国家，销售业绩的比例都应相同）

期望值计算：

A国A产品的销售期望值=A国的合计*全部A产品的比值（A产品合计/总合计）=2139*（4732/5807）=1743

步骤三：设定5%或10%这种拒绝假设的标准（这被称为拒绝区），判断通过样本求出的统计量是否在该拒绝区内，若在拒绝区内则拒绝假设，若不在拒绝区内则不拒绝假设。

利用excel的chiinv()函数计算出当显著性水平5%时的检验量x^2，将这个检验量和求出检验量进行比较。

由上图可知，通过计算得出的x^2值为71.2，5%显著水平下的x^2值（chiinv函数计算）为9.5，因此可拒绝假设“A、B产品在不同国家的销售情况不存在差异”，换句话说就是“观察值与期望值的离散程度超越了可以用偶然性来解释的范围，A、B产品在不同国家的销售情况存在统计学意义上的差异”。

得出了这个结论后，在实际工作中就能够做出决定：在A国应增加对B产品而不是A产品的推广经费。

（2）下图是与前面的例子中非常相似的数据（称为观察数据2）

从这个例子能得出与上表不同的结论吗？

根据上述步骤来求出统计量，如下图所示，

由观察数据2计算出的x^2的值约为6.4，低于显著型水平为5%时的x^2值9.5，这样我们就不能拒绝“A、B产品在不同国家的销售情况不存在差异”的假设，这与前面的例子刚好相反，由此可以看出不能仅靠主观判断，而需要运用统计方法进行定量检验的重要性。

（3）下面介绍另一个函数，这个函数代替我们根据期望值得出统计量并和chiinv（）得出结果进行比较的步骤，chitest（）函数。

使用chitest()函数计算观察数据1：结果值远远小于5%的概率，也就是拒绝假设

使用chitest()函数计算观察数据2：结果值约17%大于5%的概率，也就是不拒绝假设

用excel 分析工具中的chitest()函数，可根据其函数算出的结果得出结论，若该结果值小于5%的显著型水平则拒绝假设，若大于5%则不能拒绝假设。

【注意！！！】

做检验时需要注意的问题，即不能拒绝“不存在差异”的假设并不表示可以完全接受该假设，因为仅仅是不能拒绝“不存在差异”，其更严谨的说法是“无法确定是否存在差异”。

（4）独立性检验中所说的独立性，是指排列着数据的表（也称矩阵或列联表）中纵轴与横轴的数据之间是否相互影响（独立）。试着验证一下投放广告单与产品销售之间的因果关系。

下表是投放广告单与未投放广告单的情况下购买该产品人数的抽样调查结果。

结果11%大于5%，也就是不能拒绝假设，得出投放广告单与产品销售之间是独立的，也就是投放广告单与产品的销售并没有关系。

（5）利用独立性检验只能检验“能否确定存在差异性的问题”。即使结果显示其数据确实存在差异性，但是从该结果上并不能得知哪个因素存在多大的差异，是正向差异还是负向差异，接下来就需要用到“调整后残差”的概念了。

下面为对产品销售观察数据1进行调整后残差的过程：

下图为用excel的雷达图反映了A、B产品在不同国家的调整后残差。这样，哪个产品在哪个国家销售情况较好（较差）就一目了然了。

2、t检验

总体平均值的差异检验

所谓总体平均值的差异检验，指的是通过从两组总体数据中抽出的样本来检验其样本的平均值间是否存在统计学意义上的差异。

（1）下表表示的是从神奈川县和日本东京都的店铺中分别抽取出相同数量的店铺作为样本，列出了各家店每天的顾客人数。

由图可知平均顾客人数分别为神奈川县31.8人，东京都37.2人，由此就可以断定“神奈川县与东京都之间存在差异，东京都的店铺顾客人数较多”吗？

这时候就需要对“从样本得出的平均值31.8，37.2能否由此推测两组总体的平均值存在统计学意义上的差异”进行检验了。这称为t检验。

步骤一：结合总体的特征建立假设

首先假设“神奈川县与东京都在平均来店顾客人数上不存在差异”。

步骤二：计算制作概率分布所需的值（称为统计量或检验统计量）

由公式求出t值。此公式建立在平均值之间不存在差异的假设前提下。

式中，x1,x2表示两组数据，s1,s2分别表示x1,x2的方差，n1,n2分别表示x1,x2的样本数量

使用ttest()函数得出结果

上图表示在检验量t值得概率分布图上表现出5.4%的概率，因为它大于显著性水平5%，所以不能拒绝假设“神奈川县与东京都在平均来店顾客人数上不存在差异”，也就是，虽然通过样本求出各自的平均值为31.8和37.2，但并不能断定神奈川县与东京都在平均来店顾客人数上存在统计学意义上的差异。另外，严格来说，此检验还需加上总体为正态分布这个前提条件。

用excel 分析工具中的ttest()函数，可根据其函数算出的结果得出结论，若该结果值小于5%的显著型水平则拒绝假设，若大于5%则不能拒绝假设。

3、方差分析

前面检验了两组数据之间的差异，那么三组数据之间的差异呢？这里使用方差分析的方法。方差分析也是检验的一种，其基本思路和前面介绍的其他检验方法相同。

下表为某公司针对本公司生产的A产品及其他公司生产的B产品、c产品就价格、功能、易操作性、大小、设计、重量、服务、音质共8各方面向20人进行问卷调查。

从上图的结果是可以看出本公司的不同产品间不同方面是存在有差异的，但是哪些是有意义的差异呢，而且必须强调的是这里的数据是对20个人进行调查得到的，上图的数值只是通过样本计算出来的平均值。

有些人会觉得三个产品间的重量没有差异，有些人会觉得易操作性、功能、价格等都有差异或无差异，下面就用方差分析来检验这些要素间是否存在统计学意义上的差异。

为了简化例子只考虑与A产品、B产品的价格相关的数据的情况。

上图反映了A产品和B产品在价格因素上的分布，它们的平均值不同，数据各自分布在平均值周围，并且越接近平均值的位置数据越多，在分布图上的峰度就高，而距平均值越远的位置数据就越少，在分布图上的峰度就低。

因素：指比较的因素（价格）
组：指比较的对象（A产品、B产品）

若“组间离散程度”远远大于“组内离散程度”，则可推论其平均值的差异具有统计学意义。

数据可视化像上图一样，可以很好的就看出了组内差异和组间差异，那么怎么量化它们呢？

下表是只选取了五位采访者对三种产品价格的评价数据。

可以看到每种产品的组平均值和总体平均值，总体平均值是将各个产品的组平均值求和除以产品个数。

（1）“总体平均值与观察值的离差”的平方总和

通过观察值与平均值之间距离的平方来判断观察值距离总体平均值有多远（有无变异），对每一组观察数据都进行相同的计算，将所得值全部相加得出的就是总体变异。

（2）“总体平均值与各组平均值的离差”平方总和

以总体平均值为基准，利用平方和来计算各组得平均值距离总体平均值有多远，它与观察值无关，只考虑总体平均值与组内平均值的离差，所以同一组内值相同，将这些值全部相加得到的结果称为组间变异，代表各组间的差异。

（3）“观察值与各组平均值的离差”的平方总和

以各组的平均值为基准，反映了各组内的观察值与其平均值之间的距离，称为组内变异。

方差分析的原理只考虑组间变异和组内变异的比率，即求出B和C的值就可以了，通过A的值可以发现总体变异是组间变异和组内变异的和

总体变异 = 组间变异 + 组内变异

总体变异，即各组数据的离散程度恰好可以分解成“组间离散程度”（这里指产品平均值的离散程度）和“组内离散程度”（这里指被调查者对于同一产品的回答的离散程度）这两个因素。

换个角度来看，观察值中原本就存在着一定的离散程度，形成这种离散程度的原因有两个，一是同一受访者对不同产品的回答存在差异（组间变异），另外一个是不同受访者对不同产品的回答存在差异（组间变异）。

步骤一：结合总体的特征建立假设

首先假设“各组数据的平均值之间不存在差异”。

步骤二：计算制作概率分布所需的值（称为统计量或检验统计量）

在方差分析中，统计量使用F分布，其中F值的计算公式如下：

因为组内变异和组间变异的自由度不同，所以把自由度分为自由度1和自由度2，自由度1为组数-1，自由度2为组数*（某组内的数据个数-1）

那么在这个例子下的F值为多少呢

那么当显著水平为5%时F分布中的F值为多少呢？（应用excel中的finv()函数）

=FINV(0.05,2,12)

通过数据计算出的F值为2，而显著水平为5%时的F值为3.89，因而不能拒绝假设。即各组数据的平均值之间不存在差异，也就是根据样本不能断定3个产品在价格方面的评价的平均值之间存在显著性差异。

下面用完全相反的方法来解决上述事例，利用另一个与F分布相关的excel函数，它的计算方法与finv函数相反，被称为fdist函数。

由上图可知，在已知通过数据中求的F值为2，且各自的自由度为2及12的情况下，其概率约为17.8%，大于5%，所以不能拒绝假设。

要注意不同函数的对比条件和结论

实际上，方差分析也不一定要通过以上所有步骤才能得出结果，excel里具备能够一次性得出其结论的功能。

（1）调整数据

（2）数据->数据分析->方差分析：单因素方差分析

（3）结果

在方差分析表中可以看到我们前面计算出的各种数值。SS(离均差平方和)栏中组间值为1.73，组内值为5.2，和之前算的一样。df为自由度，MS为变异/自由度的方差，F为MS的比值（也就是F值），P-value p值表示当F=2时的概率（也是前面用fdist函数算出的数值），F crit表示显著水平为0.05时的F值（finv函数可算）。