经验条件熵公式的推导

最新推荐文章于 2023-09-24 15:43:56 发布

Yokate

最新推荐文章于 2023-09-24 15:43:56 发布

阅读量1w

点赞数 9

文章标签：决策树

本文链接：https://blog.csdn.net/yaokun2012/article/details/81979314

版权

H(D|A=a_i) 李航《统计学习方法》中，P62页公式5.8：

计算特征A对数据集D的经验条件熵 H(D|A) :

$H(D|A)=\sum_{i=1}^{n}\frac{D_i}{D}H(D_i)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_i|}{log_{2}}^{\frac{|D_{ik}|}{|D_i|}}$

此处，给出条件熵（ H(Y|X) ）的定义:X给定条件下Y的条件概率分布的熵对X的数学期望：

$H(Y|X)=\sum_{i=1}^{n}P_iH(Y|X=x_i)$

在书中P61页下方给出了各类的定义：

设训练数据集为D， |D| 表示样本容量，即样本个数，设有K个类 C_k ， k=1,2,...,K 。 |C_k| 为属于类 C_k 的样本个数， $\sum_{k=1}{K}|C_k|=|D|$ ，设特征A有n个不同的取值{ a_1,a_2,.....,a_n },根据特征A的取值将D划分为n个子集 D_1,D_2,...D_n ， |D_i| 为 D_i 的样本个数， $\sum_{i=1}^{n}|D_i|=|D|$ ，记子集 D_i 中属于类 C_k 的样本的集合为 $D_{ik}$ ，即 $D_{ik}=D_i\cap C_k$ ， $|D_{ik}|$ 为 $D_{ik}$ 的样本个数。

那么，对于 H(D|A) ，其变形过程如下：

$H(D|A)=\sum_{i=1}^{n}p_iH(D|A=a_i)$

式中， P_i 为按P60页给出的定义：

设是一个取有限个值的离散随机变量，其概率分布为 P(X=x_i)=p_i,i=1,2,3....,n

这说明 P_i 是数据集按照特征A分类成了类并由此计算其中的第类的概率分布。

对于 H(D|A=a_i) ，它的含义是特征A取值 a_i 时的条件下，D的条件概率分布的熵。D是整个数据集，在 A=a_i 时就是上方所述的P61页给出的 D_i 定义，所以特征A取值 a_i 时的条件下D的条件概率分布的熵 H(D|A=a_i)=H(D_i) 。

H(D_i) 表示由特征A对数据集D划分后形成的 D_i 子数据集的熵。那么：

$H(D_i)=-\sum_{k=1}^{K}p_k{log_{2}}^{p_k}$ ,

其中 p_k 是 D_i 中属于第k类的概率，即：

$p_k=\frac{|D_{ik}|}{|D_i|}$

最终可得：

$H(D|A)=\sum_{i=1}^{n}\frac{D_i}{D}H(D_i)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_i|}{log_{2}}^{\frac{|D_{ik}|}{|D_i|}}$

因此，经验条件熵的求解步骤：

确定特征A；
根据特征A对数据集划分获取子集，计算子集的经验熵并求和；
1. 对子集分类（此处分类是按类别分，不是按特征分），获取各类对应的集合 $D_{ik}$ ；
2. 由上一步的 $D_{ik}$ 和计算第类在子集中的概率分布 $|D_{ik}|/|D_i|$ ；
3. 按公式计算出子集的经验熵；
求子集对于数据集的概率分布；
步骤2、3中的数据对应相乘后相加。

Yokate

关注

9
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
经验条件熵公式的推导

李航《统计学习方法》中，P62页公式5.8：计算特征A对数据集D的经验条件熵:此处，给出条件熵（）的定义:X给定条件下Y的条件概率分布的熵对X的数学期望：在书中P61页下方给出了各类的定义：设训练数据集为D，表示样本容量，即样本个数，设有K个类，。为属于类的样本个数，，设特征A有n个不同的取值{},根据特征A的取值将D划分为n个子集，为的样本个数，，记子集中属于类的样本的...
复制链接

扫一扫