熵-entropy

决策树构造里有个重要的概念——熵

什么是熵呢?

当一件事有多种可能状态,这件事具体是哪种状态的不确定性叫熵。(能够消除这件事的不确定性事物叫做信息)

信息熵的公式如下:

问1:信息是如何被量化的呢

问2:为什么这个公式是这样的呢,为什么要乘以log呢?

我们来参考一下质量是如何被测试出来的:

选定一个参照物,把这个物体的质量称为千克,要测其他物体的质量就看它等于多少个参照物

测量信息也是一样的,选择另一个事件的不确定性作为参照物,当想要测试其他事件的信息时,就看待测事件相当于多少个参照物。

在测质量的多少个时,我们使用的是除法,待测物体/参考物体= 待测物体的质量

 但是在测量信息是却不能用除法,因为抛掷3个硬币能够产生的等可能结果并不是3*2=6,二是2^3=8, 也就是说不是线性关系而是指数关系,所以当知道可能情况的个数是m时,想求这些情况相当于多少个参考事件时该用log。

假如,现在一道选择题,本来每个选项的不确定性的一样的(25%),如果告诉选项c是正确答案的概率是50%,该如何计算呢?

 解答方法是:分别测量待测事件事件每件的信息量后,乘以它们各自发生的概率再相加,也就是我们文章前头的这个公式:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值