一、概念
在树的结点处按照属性的不同条件对样本进行划分。
二、决策树的生成
1. 特征的选择:局部最优
选择最优属性的最优划分。
度量结点的不确定程度:熵、基尼系数、分类错误率。
结点越不纯,结点处类分布越平衡,值越大。
E n t r o p y ( t ) = − ∑ k = 0 K p ( k ∣ t ) l o g ( p ( k ∣ t ) ) Entropy(t) = -\sum_{k=0}^K p(k|t)log(p(k|t)) Entropy(t)=−∑k=0Kp(k∣t)log(p(k∣t))
G i n i ( t ) = 1 − ∑ k = 0 K [ p ( k ∣ t ) ] 2 Gini(t) = 1-\sum_{k=0}^K[p(k|t)]^2 Gini(t)=1−∑k=0K[p(k∣t)]2
C l a s s i f i c a t i o n E r r o r = 1 − m a x [ p ( k ∣ t ) ] Classification Error = 1 - max[p(k|t)] ClassificationError=1−max[p(k∣t)]
比较分裂前后不纯程度的差别
信息增益(ID3):分裂前后结点熵的差
Δ = I ( p a r e n t ) − I ( c h i l d r e n ) \Delta = I(parent) - I(children) Δ=I(parent)−I(c