决策树构造里有个重要的概念——熵
什么是熵呢?
当一件事有多种可能状态,这件事具体是哪种状态的不确定性叫熵。(能够消除这件事的不确定性事物叫做信息)
信息熵的公式如下:
问1:信息是如何被量化的呢
问2:为什么这个公式是这样的呢,为什么要乘以log呢?
我们来参考一下质量是如何被测试出来的:
选定一个参照物,把这个物体的质量称为千克,要测其他物体的质量就看它等于多少个参照物
测量信息也是一样的,选择另一个事件的不确定性作为参照物,当想要测试其他事件的信息时,就看待测事件相当于多少个参照物。
在测质量的多少个时,我们使用的是除法,待测物体/参考物体= 待测物体的质量
但是在测量信息是却不能用除法,因为抛掷3个硬币能够产生的等可能结果并不是3*2=6,二是2^3=8, 也就是说不是线性关系而是指数关系,所以当知道可能情况的个数是m时,想求这些情况相当于多少个参考事件时该用log。
假如,现在一道选择题,本来每个选项的不确定性的一样的(25%),如果告诉选项c是正确答案的概率是50%,该如何计算呢?
解答方法是:分别测量待测事件事件每件的信息量后,乘以它们各自发生的概率再相加,也就是我们文章前头的这个公式: