【深度学习-信息熵与信息增益】

zhangqw1013

已于 2023-12-05 17:25:53 修改

阅读量1.2k

点赞数 2

文章标签：深度学习人工智能

于 2023-12-05 14:51:46 首次发布

本文链接：https://blog.csdn.net/zhangqw1013/article/details/134685462

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、信息熵和信息增益计算公式
二、案例

前言

熵的应用主要是在决策树方面，信息熵主要用于计算信息增益，信息增益的大小决定了再进行决策树构建时，哪些特征先决策。一般情况，选择信息增益的大的特征先决策，信息增益小的特征后决策

一、信息熵和信息增益计算公式

信息熵计算：
其中，K表示结果的分类，D表示样本总数， $C_k$ 表示属于某个类别的样本数
$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}$
条件熵计算：
$H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}$
信息增益计算：
$I G ain (S, g) = H (D) - H (D ∣ A)$

二、案例

1. 性别和活跃度两个特征，哪个对用户流失影响较大？

uin	gender	act_info	is_lost
1	男	高	0
2	女	中	0
3	男	低	1
4	女	高	0
5	男	高	0
6	男	中	0
7	男	中	1
8	女	中	0
9	女	低	1
10	女	中	0
11	女	高	0
12	男	低	1
13	女	低	1
14	男	高	0
15	男	高	0

样本总数为 $D = 15$ ，结果分为已流失和未流失2类， $K = 2$ ，其中样本中已流失有5个， $C_1=5$ ，未流失有10个， $C_2=10$ ，男性有8位，女性有7位，活跃度高的用户有6位，活跃度中的有5位，活跃度低的有4位。

整体熵：
$E(S)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}=-\frac{5}{15}log_2(\frac{5}{15})-\frac{10}{15}log_2(\frac{10}{15})=0.9182$

性别熵：
$E(g_1)=-\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}=-\frac{3}{8}log_2(\frac{3}{8})-\frac{5}{8}log_2(\frac{5}{8})=0.9543$
$E(g_2)=-\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}=\frac{2}{7}log_2(\frac{2}{7})-\frac{5}{7}log_2(\frac{5}{7})=0.8631$

性别信息增益：
$IGain(S,g)=E(S)-\frac{8}{15}E(g_1)-\frac{7}{15}E(g_2)=0.0064$

同理，可以计算出活跃度的信息增益。

活跃度熵：
$E(a_1)=0$
$E(a_2)=0.7219$
$E(a_3)=0$

活跃度信息增益：
$I G ain (S, g) = 0.6776$

在这里插入图片描述

明显，活跃度的信息增益大于性别的信息增益，说明活跃度对用户流失影响大于性别。在做特征选择或者数据分析的时候，应该重点考察信息增加高的指标。
目前为止，当类别较多时，信息增益的值比较大，在极限情况，样本总数和分类数相等，这样信息增益值达到最大。但是这样分类没有任何意义。因此需要使用信息增益分裂熵来评估最终的决策方案。