今天推出的是一个基尼系数双维度分解工具,之前的基尼系数分解,要么是基不同的子群,或者基于不同的分项,但是有时候我们需要同时基于分组和分项来研究,如GDP,既需要根据区域分组研究区域差异,也需要揭示总体差异的产业来源,这时候常用的泰尔指数、Dagum基尼系数分解就不再适用了。
这个基尼系数双维度分解是由Mussard在2004年提出,其主要理论如下:
给定一个样本总体 P P P,其规模为 n n n,均值为 μ \mu μ,该总体划分为 k k k 个子群,每个子群可以表示为 P i ( ∀ j , h = 1 P_i(\forall j,h=1 Pi(∀j,h=1, 2,…,k)。每一个子群的均值和规模分别表示为 μ j \mu_j μj和 n j n_j nj。基尼系数可以用下面的公式来计算,其中, s p , i , s p , r s_{p,i},s_{p,r} sp,i,sp,r分别表示样本总体 P P P中的个体 i i i、个体 r r r 的指标 ⟨ i = 1 , 2 , ⋯ , n ⟩ \langle i=1,2,\cdots,n\rangle ⟨i=1,2,⋯,n⟩。
G = ∑ ^ i = 1 ∑ ^ r = 1 ∣ x p , i − x p , r ∣ 2 μ n 2 G=\frac{\hat{\sum}_{i=1}\hat{\sum}_{r=1}|x_{p,i}-x_{p,r}|}{2\mu n^{2}} G=2μn2∑^i=1∑^r=1∣xp,i−xp,r∣
总体指标被分成 q q q 个来源 x m ( m = 1 , 2 , ⋯ , q ) x^m(m=1,2,\cdots,q) xm(m=1,2,⋯,q) 。在样本总体 P P P 中,每个个体的指标可以表示为:
x P , i = ∑ n = 1 q x P , i m x_{_{P,i}}=\sum_{n=1}^{q}x_{P,i}^{m} xP,i=n=1∑qxP,im
由于
∣ x p , i − x p , r ∣ = x p , i + x p , r − 2 m i n { x p , i , x p , r } \mid x_{p,i}-x_{p,r}\mid=x_{p,i}+x_{p,r}-2\mathrm{min}\{x_{p,i},x_{p,r}\} ∣xp,i−xp,r∣=xp,i+xp,r−2min{xp,i,xp,r}
因此,总体 P P P 的基尼系数可以表示为:
G = ∑ i = 1 n ∑ i = 1 n ( x p , i + x p , r − 2 min { x p , i , x p , r } ) 2 μ n 2 G=\frac{\sum_{i=1}^{n}\sum_{i=1}^{n}\left(x_{p,i}+x_{p,r}-2\min\{x_{p,i},x_{p,r}\}\:\right)}{2\mu n^2} G=2μn2∑i=1n∑i=1n(xp,i+xp,r−2min{xp,i,xp,r})
下面,根据总体指标来源对 2min { x p , i , x p , r } \{x_{p,i},x_{p,r}\} {xp,i,xp,r} 进行分解:
∑ m = 1 q 2 x P , i r ∗ m = 2 min { x P , i , x P , r } \sum_{m=1}^{q} 2 x_{P, i r}^{* m}=2 \min \left\{x_{P, i}, x_{P, r}\right\} m=1∑q2xP,ir∗m=2min{xP,i,xP,r}
例如,令 2 x p , i = 2 min { x p , i , x p , r } 2x_{p,i}=2\min\{x_{p,i},x_{p,r}\} 2xp,i=2min{xp,i,xp,r},如果 x p , i = x p , i 1 + x p , i 2 x_{p,i}=x_{p,i}^1+x_{p,i}^2 xp,i=xp,i1+xp,i2,那么
$$
\sum_{m=1}{q}2x_{P,ir}{*m}=2*(x_{P,i}{1}+x_{P,i}{^2})
$$
因此,基尼系数可以按照分项指标进行如下测度:
G = ∑ n = 1 q ( ∑ i = 1 n ∑ i = 1 n ( x P , i m + x P , r m − 2 x P , i r m ) 2 μ n 2 ) G=\sum_{n=1}^{q}\left(\frac{\sum_{i=1}^{n}\sum_{i=1}^{n}(x_{P,i}^{m}+x_{P,r}^{m}-2x_{P,ir}^{m})}{2\mu n^{2}}\right) G=n=1∑q(2μn2∑i=1n∑i=1n(xP,im+xP,rm−2xP,irm))
上式表明基尼系数被分解成 q 个部分,每个部分就是该指标各分项指标对于总体差异的贡献。根据 Dagum的基尼系数分解方法,基尼系数可以按照子群进行分解:
G = ∑ j = 1 k ( ∑ i = 1 n j ∣ x j , i − x j , r ∣ ) 2 μ n 2 + 2 ∑ j = 2 k ∑ h = 1 j − 1 ( ∑ i = 1 n j ∑ r = 1 n h ∣ x j , i − x h , r ∣ ) 2 μ n 2 G=\frac{\sum_{j=1}^{k}\left(\sum_{i=1}^{n j}\left|x_{j, i}-x_{j, r}\right|\right)}{2 \mu n^{2}}+\frac{2 \sum_{j=2}^{k} \sum_{h=1}^{j-1}\left(\sum_{i=1}^{n j} \sum_{r=1}^{n h}\left|x_{j, i}-x_{h, r}\right|\right)}{2 \mu n^{2}} G=2μn2∑j=1k(∑i=1nj∣xj,i−xj,r∣)+2μn22∑j=2k∑h=1j−1(∑i=1nj∑r=1nh∣xj,i−xh,r∣)
其中, x j , r x_{j,r} xj,r表示第 j j j 个子群中第 r 个个体的指标。按照 Dagum,基尼系数分解为两个部分:
G = G w + G g b G=G_{_{w}}+G_{_{gb}} G=Gw+Ggb
其中, G w G_{_w} Gw 是区域内差异; G g b G_{gb} Ggb 是区域间差异。基尼系数的双维分解可以按照如下公式进行:
G = ∑ m = 1 q { ∑ j = 1 k [ ∑ i = 1 n j ∑ r = 1 n j ( x j , i m + x j , r m − 2 x j , i r s m ) ] 2 μ n 2 } + ∑ m = 1 q { 2 ∑ j = 2 k ∑ k = 1 j − 1 [ ∑ i = 1 n j ∑ r = 1 n k ( x j , i m + x k , r m − 2 x j k , i r s m ) ] 2 μ n 2 } G=\sum_{m=1}^{q}\left\{\frac{\sum_{j=1}^{k}\left[\:\sum_{i=1}^{nj}\:\sum_{r=1}^{nj}\:(\:x_{j,i}^{m}+x_{j,r}^{m}-2x_{j,ir}^{s\:m})\:\right]}{2\mu n^{2}}\right\}+\sum_{m=1}^{q}\left\{\frac{2\sum_{j=2}^{k}\:\sum_{k=1}^{j-1}\left[\:\sum_{i=1}^{nj}\:\sum_{r=1}^{nk}\:(\:x_{j,i}^{m}+x_{k,r}^{m}-2x_{jk,ir}^{s\:m})\:\right]}{2\mu n^{2}}\right\} G=m=1∑q⎩ ⎨ ⎧2μn2∑j=1k[∑i=1nj∑r=1nj(xj,im+xj,rm−2xj,irsm)]⎭ ⎬ ⎫+m=1∑q⎩ ⎨ ⎧2μn22∑j=2k∑k=1j−1[∑i=1nj∑r=1nk(xj,im+xk,rm−2xjk,irsm)]⎭ ⎬ ⎫
该模型计算过程比较复杂,我们开发出相关工具,可以直接计算基尼系数的双维度分解,结果如下:
分别是组内GINI和组间GINI,其和应等于总体GINI。
我们这个工具特点之一,就是可以在结果中指明对应分组的名称,而非用数字代替,简洁明了。
有需要可以联系微信:canglang12002