经济学-基尼指数

基尼指数

基尼指数简介

  基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。

  假设一个训练集有 K K K个类别,样本属于第 k k k个类别的概率为 p k p_k pk,则它的基尼指数为
G ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 G(p) = \sum_{k=1}^K p_k (1-p_k) = 1 - \sum_{k=1}^K p_k^2 G(p)=k=1Kpk(1pk)=1k=1Kpk2
  如果是二分类问题,其中一个分类的概率为 p p p,则它的基尼指数为
G ( p ) = 2 p ( 1 − p ) G(p) = 2 p(1-p) G(p)=2p(1p)
  对于某一个训练集 D D D,假设训练集有 K K K个类别,并且第 k k k个类别有 C k C_k Ck个样本,则 D D D的基尼指数为
G ( D ) = 1 − ∑ k = 1 K ( ∣ C k ∣ ∣ D ∣ ) 2 G(D) = 1 - \sum_{k=1}^K ({\frac {|C_k|} {|D|}})^2 G(D)=1k=1K(DCk)2
  对于某一训练集 D D D,如果根据特征 T T T的某个特征值是否等于 t t t D D D分成两个子集 D 1 D_1 D1 D 2 D_2 D2
D 1 = { ( x , y ) ∈ D ∣ A ( x ) = t } , D 2 = D − D 1 D_1 = \{(x,y)\in{D}|A(x)=t\},\quad D_2 = D-D_1 D1={(x,y)DA(x)=t},D2=DD1
D D D的基尼指数为
G ( D , A ) = ( ∣ D 1 ∣ ∣ D ∣ ) G ( D 1 ) + ( ∣ D 2 ∣ ∣ D ∣ ) G ( D 2 ) G(D,A) = ({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2) G(D,A)=(DD1)G(D1)+(DD2)G(D2)
  基尼指数 G ( D ) G(D) G(D)表示 D D D的不确定性,基尼指数 G ( D , A ) G(D,A) G(D,A)表示经过 T = t T=t T=t分割后 D D D的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值