统计基础—数据集中趋势、离散程度、偏度与峰度的衡量指标(1)

最新推荐文章于 2024-08-19 18:43:43 发布

weixin_50304531

最新推荐文章于 2024-08-19 18:43:43 发布

阅读量5k

点赞数 1

分类专栏：统计基础文章标签：概率论

本文链接：https://blog.csdn.net/weixin_50304531/article/details/123003838

版权

本文详细介绍了数据统计中的集中趋势指标，包括算术平均值、调和平均数、几何平均数、众数和中位数，并探讨了它们的计算方法、适用场景和优缺点。接着，文章讨论了离散程度的度量，如极差、平均差、方差、标准差和变异系数，以及如何通过这些指标评估数据的波动范围。此外，还阐述了偏度和峰度的概念，作为衡量数据分布对称性和陡峭程度的指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

集中趋势指标

指标	适用数据类型	适用场景	优缺点	注意事项
算数平均值（简单算术平均值、加权算术平均值）	主要用于定距数据，也能用于定类数据和定序数据	简单算术平均数：适用于未分组的原始数据。加权平均数：用于分组的数据	优点：受样本数据波动的影响最小，具有一定的稳定性缺点：当数据集合中有极大值或极小值存在时，会对算术平均值产生很大的影响，其计算结果会掩盖数据集合的真实特征	简单算术平均值是最典型，最常用，最具有代表性的集中趋势指标
调和平均数（简单调和平均值、加权调和平均数）		缺乏总体单位数的资料而不能直接计算算术平均数，这时需用调和平均法来求得平均数。例如可以用在相同距离但速度不同时，平均速度的计算	缺点： 1、易受极端值的影响，且受极小值的影响比受极大值的影响更大。上端值越大，平均数向上偏离集中趋势就越大。反之，下端值越大，平均数向下偏离集中趋势越大。 2、只要有一个变量值为0，就不能计算调和平均数。	1、当组距数列有开口组时，调和平均数的代表性就很不可靠。 2、算术平均数和调和平均数并非两类独立的平均数；两者之间并无直接关系，也不存在谁大谁小的问题;不能根据同一资料既计算算术平均数，又计算调和平均数，否则就是纯数字游戏，而非统计研究。
几何平均值（简单几何平均数、加权几何平均数）		仅适用于具有等比或近似等比关系的数据： 1、对比率、指数等进行平均； 2、计算平均发展速度； 3、复利下的平均年利率； 4、连续作业的车间产品的平均合格率；	优点：几何平均数受极端值的影响较算术平均数小；缺点：如果变量值有负值，计算出的几何平均数就会成为负数或虚数；	1、数据之间是乘除关系 2、计算总水平、总成果等所有阶段、所有环节水平、成果的连乘积总和时，求各阶段、各环节的一般水平、一般成果，要使用几何平均法计算几何平均数。
众数	定类数据，定序数据，定距数据，定比数据	数据分布偏斜程度较大时应用，在编制物价指数时，农贸市场上某种商品的价格常以很多摊位报价的中数值为代表。	优点：不受极端值影响、具有不惟一性；缺点：作为集中趋势代表值应用的场合较少	如果数据集合中所有数据值出现的次数相同，那么该数据集合没有众数
中位数		常被用来度量具有偏斜性质的数据集合的集中趋势。	优点： 1、不受分布数列的极大或极小值影响，从而在一定程度上提高了中位数对分布数列的代表性。 2、有些离散型变量的单项式数列，当次数分布偏态时，中位数的代表性会受到影响。	一个数集中最多有一半的数值小于中位数，也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半，那么数集中必有若干值等同于中位数。

离散程度指标

指标	适用数据类型	适用场景	优缺点	注意事项
异众比率	主要测度分类数据的离散程度，顺序数据和数值型数据可以适用	对分类数据离散程度的测度，用于衡量众数对一组数据的代表成度		异众比率越大，说明非众数频率比重越大，众数代表性越差；反之代表性越高
四分位差	顺序数据,数值型数据，但不适合分类数据	主要用于衡量非正态分布或偏态分布资料的离散程度，一端或两端无确切值或分布不明确资料的变异程度	优点：1、四分位差反映了中间50%数据的离散程度，规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断， 2、四分位差不受极值的影响。 3、此外，由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。缺点：但四分位距还是单纯的两个数值相减，并没有考虑其他数值的情况，所以也无法比较完整地表现数据集的整体离散情况。	1、数值越小，说明中间的数据越集中；其数值越大，说明中间的数据越分散。 2、四分位差主要用于测度顺序数据的离散程度
极差	数值型数据		缺点： 1、易受极端值影响，因为最大值和最小值都取的是极端，而没有考虑中间其他数据项，因此往往会受异常点的影响不能真实反映数据的离散情况。 2、且由于极差只涉及两个极端值，不能反映组内其他观察值的变异，故一般用来粗估资料的变异程度。	1、离散程度的最简单测度值 2、未考虑数据的分布
平均差	数值型数据	数学性质较差，实际中应用较少；实际上在应用场景中，更多还是用标准差和方差。	优点：平均差相对标准差而言，更不易受极端值的影响，因为标准差是通过方差的平方计算而来的，但是平均差用的是绝对值，其实是一个逻辑判断的过程而并非直接计算的过程，所以标准差的计算过程更加简单直接。	平均差较能全面准确的反映一组数据的离散情况，如果平均差越大说明离散程度越大，反之越小。
方差	数值型数据	主要用于描述对称分布，特别是正态分布或近似正态分布资料离散程度的指标。	优点：用均值作为参照系，考虑了所有数值相对均值的偏离情况，并使用平方的方式进行求和取平均，避免正负数的相互抵消缺点：要涉及全部数据,并且计算复杂	1、在实际工作中总体方差往往是未知的，常用样本方差来估计。 2、方差越大，数据的波动越大；方差越小，数据的波动就越小。 3、方差是最常用的衡量数据离散情况的统计量。
标准差	数值型数据	主要用于描述对称分布，特别是正态分布或近似正态分布资料离散程度的指标。	优点： 1、标准差和变量的计算单位相同，比方差清楚，因此分析的时候更多的使用的是标准差。 2、基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况缺点：要涉及全部数据,并且计算复杂	方差和标准差是测算离散趋势最重要、最常用的指标。
相对位置的度量（标准分数、经验法则、切比雪夫不等式）	数值型数据	标准分数： 1、对某一个值在一组数据中相对位置的度量 2、可用于判断一组数据是否有离群点 3、用于对变量的标准化处理经验法则：数据对称分布切比雪夫不等式：数据不是对称分布
变异系数	数值型数据	需要消除测量尺度和量纲的影响；主要适用于量纲不同的变量间，或均数差别较大的变量间变异程度的比较。	优点：作为一个无量纲量，可以比较度量单位不同的数据集之间的离散程度的差异。变异系数是一个无量纲量，因此在比较两组量纲不同或均值不同的数据时，应该用变异系数而不是标准差来作为比较的参考。缺点：无法反应真实的绝对数值水平，同时对于均值是0的数据集无能为力。当平均值接近于0的时候，微小的扰动也会对变异系数产生巨大影响，因此造成精确度不足。	1、只在平均值不为零时有定义，而且一般适用于平均值大于零的情况 2、变异系数一般不大于20-25%为较好。说明均数的代表性较好，测量指标比较稳定。如果变异系数比较大，如为80%或>100%，则说明该指标的稳定性较差，其均数的代表性也较差。 3、标准差与其相应的均值之比对数据离散程度的测度消除了数据水平高低和计量单位的影响

峰度与偏度

指标	适用场景	性质	注意事项
偏度	判定数据分布的不对称程度以及方向	正态分布(偏度=0) 右偏分布(偏度>0) 左偏分布(偏度<0)	偏度的绝对值数值越大，表示其分布形态的偏斜程度越大
峰度	判定数据分布的陡峭平缓程度	正态分布(峰度 $\approx$ 0) 尖顶峰(峰度 >0) 平顶峰(峰度 <0 )	峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。

一、数据的集中趋势描述

数据描述的第一个维度是数据的集中趋势描述。数据的集中趋势描述是寻找反应事物特征的数据集合的代表值或中心值，这个代表值或中心值可以很好反映事物目前所处的位置和发展水平，通过对事物集中趋势指标的多次测量和比较，还能够说明事物的发展和变化趋势。数据的集中趋势描述的形式主要有如下几种：平均值、众数、中位数。

在这里插入图片描述

1.算数平均值

算术平均值是最常用的数据集中趋势指标，可以分为简单算术平均值和加权算术平均值。算术平均值主要用于定距数据，表示数据集合的集中趋势。也能用于定类数据和定序数据，决定算术平均值是否使用的前提条件是，求得的算术平均值是否具有现实意义

1.1 简单算术平均值

简单算术平均值是最典型，最常用，最具有代表性的集中趋势指标。将数据集合的所有数据值相加的和除以数值个数就得到简单算术平均值。

简单算术平均数适用于未分组的原始数据。
加权平均数用于分组的数据。

1.2 加权算术平均值

因为简单算术平均值认为所有的数据都具有同等的重要性，所以每个数据值都具有相同的权重。但有些时候，每个数据值的权重是不一样的，需要用加权算术平均值来表示数据集合的集中趋势。

数学概念：

（1）若n个数 $x_1,x_2,\cdots,x_n$ 的权分别是 $w_1,w-2\cdots,w_n$ ，那么 $\bar{x}=\frac{x_1w_1+x_2w_2+\cdots+x_nw_n}{w_1+w_2+\cdots+w_n}$ 叫做这n个数的加权平均值。

（2）此外，加权平均值也可用下式表示，其中 $f_1,f_2,\cdots,f_k$ 表示权数。理解方法：将原式看作 $\bar{x}=\frac{x_1f_1}{n} +\frac{x_2f_2}{n} +\cdots+\frac{x_kf_k}{n}$ 即可。
即 $\bar{x}=\frac{x_1f_1+x_2f_2+\cdots+x_kf_k}{n}$

1.3 使用算术平均值的注意事项

算术平均值虽然是应用最广泛的集中趋势指标，受样本数据波动的影响最小，具有一定的稳定性，但是也有明显的缺陷。当数据集合中有极大值或极小值存在时，会对算术平均值产生很大的影响，其计算结果会掩盖数据集合的真实特征，这时算术平均值就失去了代表性。

2. 调和平均数

调和平均数(harmonic mean)又称倒数平均数，是总体各统计变量倒数的算术平均数的倒数。调和平均数是平均数的一种。但统计调和平均数，与数学调和平均数不同，它是变量倒数的算术平均数的倒数。由于它是根据变量的倒数计算的，所以又称倒数平均数。调和平均数也有简单调和平均数和加权调和平均数两种。