纯度的度量方法
GINI index
交叉熵
misclassification error
hunt ID3决策树算法
信息增益作为属性的选择标准
信息熵越大,她的可能性越多
找信息增益最大的属性
C4.5算法
split考虑了信息增益和信息量
它是分裂的信息熵,即按某属性分类的复杂性
再算information gain,再计算信息增益率(id3是计算信息增益)
找信心增益率最大的属性
且把连续性数据一分为二变为离散型
采用概率填充缺失值
CART算法试用GINI系数作为纯度的衡量标准(c4.5
纯度用信息增益率)
找最大的GINI系数比率最大的属性