在学习决策树的过程中,了解到最常用的算法ID3,C4.5,CART。现在我们了解一下ID3算法。
一.ID3基本概念
ID3算法核心是根据“最大信息增益”原则选择划分当前数据集的最好特征。
1.信息熵
当前样本集D中第 i 类样本所占的比例 pi ,则D的信息熵为
信息熵越小,代表事件越确定。
换到决策树中可以表示某类样本所占总样本数的比例很大。
2.信息增益
假定数据集D中离散属性a有V个可能的取值,若使用a对数据进行划分,则会产生V个分支节点,其中第v个分支节点包含了D中所有在属性a上取值为av的样本,记为Dv,可以用属性a对样本集D进行划分所得的信息增益(informatongan)
描述了在知道a之后数据集D不确定性减少的程度。
二.ID3的缺点:
- ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这
大大限制了ID3的用途。 - ID3采用信息增益大的特征优先建立决策树的节点。在相同条件下,取值比
较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大。 - ID3算法对于缺失值的情况没有做考虑