变异系数法(Coefficient of Variation Method,CVM)
1.介绍
变异系数法乃是依据统计学方法计算得出系统各指标变化程度的一种客观赋权法。
在该方法中,变化差异较大的指标会被赋予较大的权重,而变化差异较小的指标则权重较小。如此,便可根据指标的统计学规律来确定其重要程度。
2.原理
变异系数法是一种极具客观性的方法,能够切实地反映指标数据的变化信息,较为客观地求出各指标的权重。此方法依据各评价指标当前值与目标值的变异程度进行赋权。当各指标现有值与目标值差距较大时,意味着该指标较难实现目标值,应赋予较大权重;反之,则应赋予较小权重。
变异系数法的赋权逻辑在于:若某项指标的数值差异较小,那么该指标在评价对象方面的区分能力就较弱,故而应赋予较小权重。反之,若某项指标的数值差异较大,便能够较为明显地将评价对象区分开来,这样的指标就应赋予较大权重。
例如,10 位老师对学生的作文进行打分,满分 10 分。其中一位老师给所有学生都打 7 分,那么这位老师的打分无法将学生的作文水平区分开,应赋予低权重。而另一位老师给学生的打分为 2 分到 9 分不等,这个分值包含了更多有用信息,能够把学生的作文水平区分开,应赋予高权重。
再看王锋正等(2021)在构建中国省份数字化水平指标体系时的说法:不同省市在某一数字化指标上的数据差额越大,说明该指标的区域不平衡越明显,落后地区欲达到平均水平的难度也就越大,因而认为该指标是进行区域平衡协调的重要着力点,即变异程度越大,所赋权重越大。
简而言之,数据围绕平均值的波动幅度越大,权重越高。
3.步骤
3.1 收集数据
由于不同指标的衡量单位可能各不相同,不能直接用于一起进行运算,所以需要消除单位的影响,即消除量纲。
在消除量纲之前,需区分正向指标与逆向(负向)指标。正向指标的数值越大,评价效果越好,例如旅游外汇收入越高,城市的旅游竞争力就越强;逆向(负向)指标的数值越大,评价效果越差,例如城市废气排放量越大,城市的旅游竞争力就越差。消除量纲的常用方法为极差法,这两种不同类型的指标在消除量纲时所使用的公式略有差异。
具体指标的正向负向标准化可参考熵权法。
有的说需要标准,有的说不需要
假设有 n n n 个待评价样本, p p p 项评价指标,形成原始指标数据矩阵:
X = ( x 11 . . . x 1 p ⋮ ⋱ ⋮ x n 1 ⋯ x np ) \begin{equation} \mathrm{X}=\begin{pmatrix}\mathrm{x}_{11}&&...&\mathrm{x}_{1\text{p}} \\ \vdots & & \ddots & \vdots \\ \mathrm{x}_{\text{n}1}&&\cdots&\mathrm{x}_{\text{np}}\end{pmatrix} \end{equation} X= x11⋮xn1...⋱⋯x1p⋮xnp
其中 X i j X_{ij} Xij 表示第 i i i 个样本第 j j j 项评价指标的数值。
例如:
GDP | 就业人数 | 财政支出 | 人均可支配收入 | |
---|---|---|---|---|
北京 | xx | xx | xx | xx |
上海 | xx | xx | xx | xx |
广州 | xx | xx | xx | xx |
深圳 | xx | xx | xx | xx |
3.2 计算均值和标准差
首先通过对 n n n 个样本中指标 j j j 的数值求和再除以样本数量 n n n 来计算指标 j j j 的均值;接着计算每个样本中指标j的值与均值之差的平方,对所有样本的差值平方求和后除以样本数量减一,再开平方得到指标 j j j 的标准差,分别反映了指标 j j j 在所有样本中的平均水平和波动情况。
{ x ˉ j = 1 n ∑ i = 1 n x i j S j = ∑ i = 1 n ( x i j − x ˉ j ) 2 n − 1 \begin{equation} \begin{aligned} \left\{ \begin{array}{rcl} \mathrm{\bar{x}_j} & = & \frac{1}{n} \sum_{i=1}^n x_{ij} \\\\ \mathrm{S_j} & = & \sqrt{\frac{\sum_{i=1}^n \left(x_{ij} - \bar{x}_j\right)^2}{n-1}} \end{array} \right. \end{aligned} \end{equation} ⎩ ⎨ ⎧xˉjSj==n1∑i=1nxijn−1∑i=1n(xij−xˉj)2
3.3 计算变异系数
变异系数等于指标 j j j 的标准差 s j \mathrm{s_j} sj 除以指标 j j j 的均值 x ˉ j \mathrm{\bar{x}_j} xˉj 。通过这种方式,能够衡量指标 j j j 的相对离散程度,即反映指标 j j j 在不同样本中的波动情况相对于其平均水平的大小。其中 j j j 代表不同的指标,取值范围为 1 , 2 , ⋯ , p 1,2,\cdots,p 1,2,⋯,p 。
v j = s j x ˉ j , j = 1 , 2 , ⋯ , p \begin{equation} \mathrm{v_j~=~\frac{s_j}{\bar{x}_j}~,~j=1,2,\cdots,p} \end{equation} vj = xˉjsj , j=1,2,⋯,p
3.4 计算权重
这个公式用于计算指标 j j j 的权重 w j \mathrm{w_j} wj 。首先计算出各个指标的变异系数 V j \mathrm{V_j} Vj ,然后将指标 j j j 的变异系数 V j \mathrm{V_j} Vj 除以所有指标变异系数之和 ∑ j = 1 p V j \sum_{j = 1}^{p}V_{j} ∑j=1pVj ,得到指标 j j j 在所有指标中的相对重要程度,即权重。其中 p p p 代表指标的总数, j j j 代表不同的指标。
w j = V j ∑ j = 1 p V j \begin{equation} \mathrm{{w}_{j} = \frac{V_{j}}{\sum_{j=1}^{p} V_{j}}} \end{equation} wj=∑j=1pVjVj
则经过计算得到的最终指标权重
W = { w 1 , w 2 , ⋯ , w p } \begin{equation} \mathrm{W}=\{\mathrm{w}_1,\mathrm{w}_2,\cdots,\mathrm{w}_\mathrm{p}\} \end{equation} W={w1,w2,⋯,wp}
4.案例分析
4.1 案例背景
假设有三个城市在以下四个指标方面的数据:人均 GDP(单位:万元)、绿化率、每万人拥有的图书馆数量、空气质量优良天数。具体数据如下:
城市 | 人均 GDP | 绿化率(%) | 每万人拥有的图书馆数量 | 空气质量优良天数 |
---|---|---|---|---|
A 市 | 8 | 40 | 3 | 280 |
B 市 | 10 | 45 | 4 | 300 |
C 市 | 6 | 35 | 2 | 260 |
4.2 变异系数法计算过程
- 计算均值
- 人均 GDP 的均值: ( 8 + 10 + 6 ) ÷ 3 = 8 (8 + 10 + 6)÷3 = 8 (8+10+6)÷3=8
- 绿化率的均值: ( 40 + 45 + 35 ) ÷ 3 = 40 (40 + 45 + 35)÷3 = 40 (40+45+35)÷3=40
- 每万人拥有的图书馆数量的均值: ( 3 + 4 + 2 ) ÷ 3 = 3 (3 + 4 + 2)÷3 = 3 (3+4+2)÷3=3
- 空气质量优良天数的均值: ( 280 + 300 + 260 ) ÷ 3 = 280 (280 + 300 + 260)÷3 = 280 (280+300+260)÷3=280
- 计算标准差
- 人均 GDP 的标准差计算公式为:
σ = 1 N ∑ i = 1 N ( X i − X ‾ ) 2 \sigma=\sqrt{\frac{1}{N}\sum_{i = 1}{N}(X_{i}-\overline{X}){2}} σ=N1∑i=1N(Xi−X)2 - 其中(
N
=
3
N = 3
N=3),(
X
i
X_{i}
Xi)分别为 8、10、6,(
X
‾
=
8
\overline{X}=8
X=8)。代入公式可得:
σ = ( 8 − 8 ) 2 + ( 10 − 8 ) 2 + ( 6 − 8 ) 2 3 = 0 + 4 + 4 3 = 8 3 ≈ 1.633 \begin{align*} \sigma&=\sqrt{\frac{(8 - 8){2}+(10 - 8){2}+(6 - 8)^{2}}{3}}\ &=\sqrt{\frac{0 + 4 + 4}{3}}\ &=\sqrt{\frac{8}{3}}\ &\approx1.633 \end{align*} σ=3(8−8)2+(10−8)2+(6−8)2 =30+4+4 =38 ≈1.633 - 同理可得绿化率的标准差约为 2.887 2.887 2.887,每万人拥有的图书馆数量的标准差约为 0.816 0.816 0.816,空气质量优良天数的标准差约为 14.142 14.142 14.142。
- 人均 GDP 的标准差计算公式为:
- 计算变异系数
- 变异系数( C V = σ X ‾ CV=\frac{\sigma}{\overline{X}} CV=Xσ)。
- 人均 GDP 的变异系数:( 1.633 8 ≈ 0.204 \frac{1.633}{8}\approx0.204 81.633≈0.204)。
- 绿化率的变异系数:( 2.887 40 = 0.072 \frac{2.887}{40}=0.072 402.887=0.072)。
- 每万人拥有的图书馆数量的变异系数:( 0.816 3 ≈ 0.272 \frac{0.816}{3}\approx0.272 30.816≈0.272)。
- 空气质量优良天数的变异系数:( 14.142 280 ≈ 0.051 \frac{14.142}{280}\approx0.051 28014.142≈0.051)。
- 计算权重
- 各指标权重为该指标变异系数占所有指标变异系数之和的比例。
- 变异系数之和:( 0.204 + 0.072 + 0.272 + 0.051 = 0.599 0.204 + 0.072 + 0.272 + 0.051 = 0.599 0.204+0.072+0.272+0.051=0.599)。
- 人均 GDP 的权重:( 0.204 0.599 ≈ 0.341 \frac{0.204}{0.599}\approx0.341 0.5990.204≈0.341)。
- 绿化率的权重:( 0.072 0.599 ≈ 0.120 \frac{0.072}{0.599}\approx0.120 0.5990.072≈0.120)。
- 每万人拥有的图书馆数量的权重:( 0.272 0.599 ≈ 0.454 \frac{0.272}{0.599}\approx0.454 0.5990.272≈0.454)。
- 空气质量优良天数的权重:( 0.051 0.599 ≈ 0.085 \frac{0.051}{0.599}\approx0.085 0.5990.051≈0.085)。
4.3 案例分析
通过变异系数法的计算,我们可以看出在这个案例中,每万人拥有的图书馆数量这个指标的变异系数相对较大,其权重也最高,说明在这三个城市的比较中,该指标的差异较大,对城市的综合评价影响相对较大。而空气质量优良天数的变异系数相对较小,权重最低,表明在这三个城市中该指标的差异相对较小,对综合评价的影响相对较小。
变异系数法通过考虑指标的离散程度来确定权重,能够客观地反映各指标在不同城市之间的差异程度,为综合评价提供较为科学的依据。但在实际应用中,也需要结合具体情况对结果进行分析和调整,例如考虑指标的重要性是否与实际情况相符等。
5.总结
5.1 变异系数法的优点
- 客观性强:变异系数法是一种客观赋权法,完全依据数据的统计学规律确定指标权重,不依赖主观判断,能够较为准确地反映各指标的实际重要程度。
- 考虑差异:重点关注指标的变化差异,变化差异大的指标权重较大,能突出那些在不同情况下表现出较大波动、对结果有重要影响的指标。
5.2 变异系数法的缺点
- 缺乏领域知识结合:仅从数据的统计特征出发确定权重,可能忽略了指标在特定领域中的实际重要性,缺乏与专业知识的结合。
- 对异常值敏感:如果数据中存在异常值,可能会对标准差的计算产生较大影响,从而影响变异系数和权重的准确性。
5.3 数模比赛适用赛题
- 经济数据分析类赛题:例如分析不同地区经济发展指标的差异,人均收入、消费支出等指标变化差异明显,变异系数法可用于确定各指标在评估地区经济发展水平中的权重。
- 环境评估类赛题:在评估不同区域的环境质量时,涉及多个指标如空气质量、水质指标、森林覆盖率等,变异系数法可根据各指标的变化程度确定其在综合评估中的重要性。
- 多指标综合评价类赛题:当赛题需要对多个不同性质的指标进行综合评价,且各指标的衡量单位不同时,变异系数法可消除量纲影响,客观地确定各指标权重,为综合评价提供科学依据。