通俗理解信息熵

1   信息熵的公式


先抛出信息熵公式如下:


其中P(xi)代表随机事件X为xi的概率,下面来逐步介绍信息熵的公式来源!


2   信息量


信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?


多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。


信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如湖南产生的地震了;

越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了(肯定发生嘛,没什么信息量)。这很好理解!


3   例子


脑补一下我们日常的对话:


师兄走过来跟我说,立波啊,今天你们湖南发生大地震了。

我:啊,不可能吧,这么重量级的新闻!湖南多低的概率发生地震啊!师兄,你告诉我的这件事,信息量巨大,我马上打电话问问父母什么情况。


又来了一个师妹:立波师兄,我发现了一个重要情报额,原来德川师兄有女朋友额~德川比师妹早进一年实验室,全实验室同学都知道了这件事。我大笑一声:哈哈哈哈,这件事大家都知道了,一点含金量都没有,下次八卦一些其它有价值的新闻吧!orz,逃~


因此一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。


但是这个表示信息量函数的形式怎么找呢?


随着概率增大而减少的函数形式太多了!不要着急,我们还有下面这条性质


如果我们有俩个不相关的事件x和y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和,即:


h(x,y) = h(x) + h(y)


由于x,y是俩个不相关的事件,那么满足

p(x,y) = p(x)*p(y).


根据上面推导,我们很容易看出h(x)一定与p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式,可以试试。因此我们有信息量公式如下:




下面解决俩个疑问?


(1)为什么有一个负号


其中,负号是为了确保信息量一定是正数或者是0,总不能为负数吧!


(2)为什么底数为2


这是因为,我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底!


4   信息熵


下面我们正式引出信息熵。


信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望


考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即



转换一下为:


最终我们的公式来源推导完成了。


5   额外理解


这里我再说一个对信息熵的理解。信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。


如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,那么对应的信息熵为0),此时的信息熵较小。


这也就是我理解的信息熵全部想法,希望大家指错交流。也希望对大家理解有帮助~


参考:

“熵”的通俗解释 - 七月在线

关于信息熵的个人通俗的理解


原文来源:作者:忆臻

<think>好的,我需要回答用户关于决策树算法的问题,包括其基本概念、工作原理原理简介。首先,我需要回顾一下决策树的相关知识,确保自己理解正确。决策树是一种监督学习算法,用于分类回归任务。它的结构类似于树,有根节点、内部节点叶节点。每个内部节点代表一个特征或属性上的判断条件,分支代表判断结果,叶节点代表最终的决策结果。 接下来,我需要解释决策树如何工作。通常包括特征选择、树的生成剪枝。特征选择是关键,常用的方法有信息增益、信息增益比基尼指数。比如,ID3算法使用信息增益,C4.5使用信息增益比,CART使用基尼指数。这部分需要详细说明,但要注意用中文正确的LaTeX格式。例如,信息增益的公式应该是$IG(D, A) = H(D) - H(D|A)$,其中$H(D)$是数据集D的经验熵,$H(D|A)$是在特征A条件下的经验条件熵。 然后,树的生成过程是递归的。从根节点开始,根据特征选择方法选择最优特征,分割数据集,生成子节点。重复这个过程直到满足停止条件,比如所有样本属于同一类别,或者没有更多特征可用。这里可能需要提到过拟合的问题,因此剪枝是必要的,通过预剪枝或后剪枝来简化模型,提高泛化能力。 还要注意用户提到的引用,需要正确引用站内资料。例如,引用[^3]提到构建决策树的过程包括特征选择、决策节点的确定、树的生成剪枝,这我的解释一致,可以在适当的地方引用。 用户可能不太理解如何选择特征,所以需要举例说明。比如,使用信息增益时,选择能最大减少不确定性的特征。而基尼指数则衡量数据的不纯度,选择划分后基尼指数最小的特征。 此外,需要确保所有的数学公式用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$。例如,基尼指数的公式应该是$Gini(D) = 1 - \sum_{k=1}^{K} p_k^2$,其中$p_k$是第k类样本的比例。 最后,生成相关问题时要考虑用户可能的后续疑问,比如决策树的优缺点、不同算法比较(ID3 vs CART)、如何处理连续值或缺失值等。确保问题相关且有助于深入理解。 总结一下,回答的结构应该是:基本概念、工作原理(特征选择、生成、剪枝)、原理简介,然后相关问题。确保每个部分引用正确的来源,如特征选择部分引用,应用场景引用[^1]等。</think>### 决策树算法基本概念与原理 #### 1. **什么是决策树?** 决策树是一种**监督学习算法**,通过树状结构对数据进行分类或回归。其核心思想是通过对特征值的逐步判断,最终达到预测目标变量的目的。树的结构包含: - **根节点**:初始判断条件(特征) - **内部节点**:中间判断条件(特征) - **叶节点**:最终的分类或回归结果[^3] #### 2. **如何工作?** 决策树的构建分为以下步骤: **(1)特征选择** 选择对数据集划分最有效的特征。常用指标包括: - **信息增益**(ID3算法): 公式为 $IG(D, A) = H(D) - H(D|A)$,其中 $H(D)$ 是数据集的经验熵,$H(D|A)$ 是特征 $A$ 的条件熵。 - **基尼指数**(CART算法): 公式为 $Gini(D) = 1 - \sum_{k=1}^{K} p_k^2$,选择划分后基尼指数最小的特征[^2]。 **(2)树的生成** 递归地分割数据集: 1. 从根节点开始,选择最优特征进行划分。 2. 对每个子节点重复上述过程,直到满足停止条件(如所有样本属于同一类别、无剩余特征或达到预设深度)。 **(3)剪枝** 为防止过拟合,通过预剪枝(提前终止分裂)或后剪枝(生成完整树后裁剪)优化树结构。 #### 3. **原理简介** 决策树的本质是通过**最大化信息增益**或**最小化不纯度**,将数据划分到更“纯净”的子集中。例如: - **分类任务**:叶节点输出类别标签。 - **回归任务**:叶节点输出连续值(如均值)。 $$ \text{示例:基尼指数计算} \\ Gini(D) = 1 - (p_{\text{是}}^2 + p_{\text{否}}^2) $$ --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值