决策树的顶层节点
ß训练样本的信息值(基于类的比例)
ß训练样本(用来创建树的数据集)在包含9个yes和5个no的根节点上,对应于信息值
ßinfo([9,5])=0.940 bits →总的信息
ßinfo(play?)=info([9,5])
ß=entropy(9/14,5/14)
ß=–9/14*log2(9/14)–5/14*log2(5/14)
ß=0.410+0.530=0.940
按天气划分
ß基于天气(outlook)的划分,在叶节点的yes和no类的个数分别是[2,3],[4,0]和[3,2],节点的信息值分别是:
ß info([2,3]) =−2/5*log2(2/5)–3/5*log2(3/5)=0.971bits →sunny
ß info([4,0])=−4/4*log2(4/4)–0/4*log2(0/4)=0. 0 bits →overcast
ßinfo([3,2])=−3/5*log2(3/5)–2/5*log2(2/5)=0.971 bits →rain
ßinfo([2,3],[4,0],[3,2])=5/14*0.971+4/14*0+5/14*0.971=0.693bits
| YES | No | 合计 |
sunny | 2 | 3 | 5 |
overcast | 4 | 0 | 4 |
rain | 3 | 2 | 5 |
合计 | 9 | 5 |
|
虽然log2(0)无意义,但0×log2(0)仍然计算为0。