熵与随机森林
一,熵
熵是描述系统混乱的量,熵越大说明系统越混乱,携带的信息就越少,熵越小说明系统越有序,携带的信息越多。
举2个例子,抛掷一枚硬币,正反面出现的概率都为50%,根据熵的计算公式,此时的熵最大,整个投掷系统最混乱,投掷时候我不知道会出现正面还是反面,透露的信息很少。但,当一个硬币被做了手脚,抛掷此硬币出现正面的概率为99.9%,反面的概率为0.1%,整个投掷系统是很有序的,投掷时候我知道基本会出现正面,而且知道硬币极大可能被动了手脚,或者对手作弊等等,透露的信息很多。还可以这样理解,同样大的硬盘,熵越大磁道坏的就越多,他可以承载的信息越少,熵越小意味着坏掉的磁道越少,可以承载的信息量越大。
熵在概率论中的计算公式
二,熵为什么可做随机森林中决策树的度量方案
如上图,分割图中红绿点的最好方案时什么?
一种分割方法: