决策树是基于树结构进行决策的,也称判定树。
关键是选择最优划分属性。
信息熵,是度量样本集合纯度最常用的一种指标。熵越小,则纯度越高。可以据此计算信息增益,信息增益越大,意味着纯度提升越大。
增益准则 对取值数目较多的属性有偏好,所以使用增益率。
剪枝,是决策树算法用来对付过拟合的主要手段。有时会造成分支过多,把样本学的太好了,导致过拟合。
决策树是基于树结构进行决策的,也称判定树。
关键是选择最优划分属性。
信息熵,是度量样本集合纯度最常用的一种指标。熵越小,则纯度越高。可以据此计算信息增益,信息增益越大,意味着纯度提升越大。
增益准则 对取值数目较多的属性有偏好,所以使用增益率。
剪枝,是决策树算法用来对付过拟合的主要手段。有时会造成分支过多,把样本学的太好了,导致过拟合。