机器学习实战——决策树
1 决策树模型介绍
常用的决策树算法有 ID3、C4.5与CART,其依据的分类准则分别为信息增益、信息增益比和基尼系数。
1.1 ID3 算法的分类准则
“信息熵” (information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合 D 中第 k 类样本所占的比例为 p k ( k = 1 , 2 , ⋯   , ∣ y ∣ ) p_k(k = 1,2,\cdots,\mid{y}\mid) pk(k=1,2,⋯,∣y∣),则 D 的信息熵定义为
p k = ∣ D k ∣ ∣ D ∣ {p_k=\frac{\mid{D_k}\mid}{\mid{D}\mid}} pk=∣D∣∣Dk∣
E n d ( D ) End(D) E