主要描述里ID3和C4.5的区别和改进,C4.5的优缺点,以及信息增益与信息增益比的计算方法
区别
ID3使用信息增益作为特征选择的度量
C4.5使用信息增益比作为特征选择的度量
信息增益
g(D,A)=H(D)−H(D|A)
H(D) 是数据集D的熵,计算公式 H(D)=−∑Kk=1|Ck|Nlog|Ck|N
Ck 是在数据集D中出现k类的数量,N是样本的数量,类别的总数
主要描述里ID3和C4.5的区别和改进,C4.5的优缺点,以及信息增益与信息增益比的计算方法
ID3使用信息增益作为特征选择的度量
C4.5使用信息增益比作为特征选择的度量
信息增益
g(D,A)=H(D)−H(D|A)
H(D) 是数据集D的熵,计算公式 H(D)=−∑Kk=1|Ck|Nlog|Ck|N
Ck 是在数据集D中出现k类的数量,N是样本的数量,类别的总数