ID3基本策略:
(1)树根代表训练样本的单个节点的开始;
(2)如果样本都在同一个类中,则这个节点称为树叶节点并标记为该类别。
(3)否则算法使用信息熵(信息增益)作为启发知识来帮助选择合适的将样本分类的属性,以便将样本集划分为若干子集,该属性就是相应节点的“测试”或“判定”属性,同时所有属性应当是离散值。
(4)对测试属性的每个已知的离散值创建一个分支,并据此划分样本。
(5)算法使用类似的方法,递归的形成每个划分上的样本决策树,一个属性一旦出现在某个节点上,那么它就不能再出现在该节点之后所产生的子树节点中;
(6)整个递归过程在下列条件之一成立时停止。
a)给定节点的所有样本属于同一类
b)没有剩余属性可以用来进一步划分样本这时候该节点作为树叶,