0. 介绍 Gini index: CART决策树使用“基尼指数”(Gini index)来选择划分属性。 数据集D的纯度可用基尼值来度量: 直观来看,Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率(二分类)。因此,Gini(D)越小, 则数据集D的纯度越高。 总结:Gini指数越大则表示数据越不纯,Gini越小表示数据相对越纯。 属性a的基尼指数定义为: 于是,我们在选择划分属性时,选择那个使划分后Gini系数最小的属性作为最优划分属性。 1. 心脏病例子: 收集数据: 统计数据: