分类树可以用基尼指数选择最优特征(CART),同时决定该特征的最优二值切分点。基尼指数表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性,基尼指数越大,样本的不确定性也就越大,这一点与熵相似。对于给定的样本集合D,其基尼指数为: 如果样本集合D根据特征A是否取某一可能值a被分为两部分,则在特征A的条件下,集合D的基尼指数定义为: