提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
熵的应用主要是在决策树方面,信息熵主要用于计算信息增益,信息增益的大小决定了再进行决策树构建时,哪些特征先决策。一般情况,选择信息增益的大的特征先决策,信息增益小的特征后决策
一、信息熵和信息增益计算公式
信息熵计算:
其中,K表示结果的分类,D表示样本总数,
C
k
C_k
Ck表示属于某个类别的样本数
H
(
D
)
=
−
∑
k
=
1
K
∣
C
k
∣
∣
D
∣
l
o
g
∣
C
k
∣
∣
D
∣
H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}
H(D)=−k=1∑K∣D∣∣Ck∣log∣D∣∣Ck∣
条件熵计算:
H
(
D
∣
A
)
=
∑
i
=
1
n
∣
D
i
∣
∣
D
∣
H
(
D
i
)
=
−
∑
i
=
1
n
∣
D
i
∣
∣
D
∣
∑
k
=
1
K
∣
D
i
k
∣
∣
D
i
∣
l
o
g
∣
D
i
k
∣
∣
D
i
∣
H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}
H(D∣A)=i=1∑n∣D∣∣Di∣H(Di)=−i=1∑n∣D∣∣Di∣k=1∑K∣Di∣∣Dik∣log∣Di∣∣Dik∣
信息增益计算:
I
G
a
i
n
(
S
,
g
)
=
H
(
D
)
−
H
(
D
∣
A
)
IGain(S,g)=H(D)-H(D|A)
IGain(S,g)=H(D)−H(D∣A)
二、案例
1. 性别和活跃度两个特征,哪个对用户流失影响较大?
uin | gender | act_info | is_lost |
---|---|---|---|
1 | 男 | 高 | 0 |
2 | 女 | 中 | 0 |
3 | 男 | 低 | 1 |
4 | 女 | 高 | 0 |
5 | 男 | 高 | 0 |
6 | 男 | 中 | 0 |
7 | 男 | 中 | 1 |
8 | 女 | 中 | 0 |
9 | 女 | 低 | 1 |
10 | 女 | 中 | 0 |
11 | 女 | 高 | 0 |
12 | 男 | 低 | 1 |
13 | 女 | 低 | 1 |
14 | 男 | 高 | 0 |
15 | 男 | 高 | 0 |
样本总数为 D = 15 D=15 D=15,结果分为已流失和未流失2类, K = 2 K=2 K=2,其中样本中已流失有5个, C 1 = 5 C_1=5 C1=5,未流失有10个, C 2 = 10 C_2=10 C2=10,男性有8位,女性有7位,活跃度高的用户有6位,活跃度中的有5位,活跃度低的有4位。
整体熵:
E
(
S
)
=
−
∑
k
=
1
K
∣
C
k
∣
∣
D
∣
l
o
g
∣
C
k
∣
∣
D
∣
=
−
5
15
l
o
g
2
(
5
15
)
−
10
15
l
o
g
2
(
10
15
)
=
0.9182
E(S)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}=-\frac{5}{15}log_2(\frac{5}{15})-\frac{10}{15}log_2(\frac{10}{15})=0.9182
E(S)=−k=1∑K∣D∣∣Ck∣log∣D∣∣Ck∣=−155log2(155)−1510log2(1510)=0.9182
性别熵:
E
(
g
1
)
=
−
∑
k
=
1
K
∣
D
i
k
∣
∣
D
i
∣
l
o
g
∣
D
i
k
∣
∣
D
i
∣
=
−
3
8
l
o
g
2
(
3
8
)
−
5
8
l
o
g
2
(
5
8
)
=
0.9543
E(g_1)=-\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}=-\frac{3}{8}log_2(\frac{3}{8})-\frac{5}{8}log_2(\frac{5}{8})=0.9543
E(g1)=−k=1∑K∣Di∣∣Dik∣log∣Di∣∣Dik∣=−83log2(83)−85log2(85)=0.9543
E
(
g
2
)
=
−
∑
k
=
1
K
∣
D
i
k
∣
∣
D
i
∣
l
o
g
∣
D
i
k
∣
∣
D
i
∣
=
2
7
l
o
g
2
(
2
7
)
−
5
7
l
o
g
2
(
5
7
)
=
0.8631
E(g_2)=-\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}=\frac{2}{7}log_2(\frac{2}{7})-\frac{5}{7}log_2(\frac{5}{7})=0.8631
E(g2)=−k=1∑K∣Di∣∣Dik∣log∣Di∣∣Dik∣=72log2(72)−75log2(75)=0.8631
性别信息增益:
I
G
a
i
n
(
S
,
g
)
=
E
(
S
)
−
8
15
E
(
g
1
)
−
7
15
E
(
g
2
)
=
0.0064
IGain(S,g)=E(S)-\frac{8}{15}E(g_1)-\frac{7}{15}E(g_2)=0.0064
IGain(S,g)=E(S)−158E(g1)−157E(g2)=0.0064
同理,可以计算出活跃度的信息增益。
活跃度熵:
E
(
a
1
)
=
0
E(a_1)=0
E(a1)=0
E
(
a
2
)
=
0.7219
E(a_2)=0.7219
E(a2)=0.7219
E
(
a
3
)
=
0
E(a_3)=0
E(a3)=0
活跃度信息增益:
I
G
a
i
n
(
S
,
g
)
=
0.6776
IGain(S,g)=0.6776
IGain(S,g)=0.6776
明显,活跃度的信息增益大于性别的信息增益,说明活跃度对用户流失影响大于性别。在做特征选择或者数据分析的时候,应该重点考察信息增加高的指标。
目前为止,当类别较多时,信息增益的值比较大,在极限情况,样本总数和分类数相等,这样信息增益值达到最大。但是这样分类没有任何意义。因此需要使用信息增益分裂熵来评估最终的决策方案。