基尼指数
基尼指数简介
基尼指数(gini coefficient)代表了模型的不纯度,基尼指数越小,则不纯度越低;基尼指数越大,则不纯度越高,这和信息增益比是相反的。
假设一个训练集有
K
K
K个类别,样本属于第
k
k
k个类别的概率为
p
k
p_k
pk,则它的基尼指数为
G
(
p
)
=
∑
k
=
1
K
p
k
(
1
−
p
k
)
=
1
−
∑
k
=
1
K
p
k
2
G(p) = \sum_{k=1}^K p_k (1-p_k) = 1 - \sum_{k=1}^K p_k^2
G(p)=k=1∑Kpk(1−pk)=1−k=1∑Kpk2
如果是二分类问题,其中一个分类的概率为
p
p
p,则它的基尼指数为
G
(
p
)
=
2
p
(
1
−
p
)
G(p) = 2 p(1-p)
G(p)=2p(1−p)
对于某一个训练集
D
D
D,假设训练集有
K
K
K个类别,并且第
k
k
k个类别有
C
k
C_k
Ck个样本,则
D
D
D的基尼指数为
G
(
D
)
=
1
−
∑
k
=
1
K
(
∣
C
k
∣
∣
D
∣
)
2
G(D) = 1 - \sum_{k=1}^K ({\frac {|C_k|} {|D|}})^2
G(D)=1−k=1∑K(∣D∣∣Ck∣)2
对于某一训练集
D
D
D,如果根据特征
T
T
T的某个特征值是否等于
t
t
t把
D
D
D分成两个子集
D
1
D_1
D1和
D
2
D_2
D2
D
1
=
{
(
x
,
y
)
∈
D
∣
A
(
x
)
=
t
}
,
D
2
=
D
−
D
1
D_1 = \{(x,y)\in{D}|A(x)=t\},\quad D_2 = D-D_1
D1={(x,y)∈D∣A(x)=t},D2=D−D1
则
D
D
D的基尼指数为
G
(
D
,
A
)
=
(
∣
D
1
∣
∣
D
∣
)
G
(
D
1
)
+
(
∣
D
2
∣
∣
D
∣
)
G
(
D
2
)
G(D,A) = ({\frac {|D_1|} {|D|}})G(D_1) + ({\frac {|D_2|} {|D|}})G(D_2)
G(D,A)=(∣D∣∣D1∣)G(D1)+(∣D∣∣D2∣)G(D2)
基尼指数
G
(
D
)
G(D)
G(D)表示
D
D
D的不确定性,基尼指数
G
(
D
,
A
)
G(D,A)
G(D,A)表示经过
T
=
t
T=t
T=t分割后
D
D
D的不确定性。基尼指数越大,样本集合的不确定性也就越大,不纯度越高。