决策树的优点和缺点
2 ID3、C4.5、CART
这三个是非常著名的决策树算法。简单粗暴来说:
ID3 使用信息增益作为选择特征的准则;
C4.5 使用信息增益比作为选择特征的准则;
CART 使用 Gini 指数作为选择特征的准则。
参考:
https://blog.csdn.net/gunhunti4524/article/details/81506012
如前所述,控制决策树模型复杂度的参数是预剪枝参数,它在树完全展开之前停止树的构造。通常来说,选择一种预剪枝策略(设置 max_depth、 max_leaf_nodes 或 min_samples_
leaf)足以防止过拟合
决策树有两个优点:
一是得到的模型很容易可视化,非专家也很容易理解(至少对于较小的树而言);
二是算法完全不受数据缩放的影响。由于每个特征被单独处理,而且数据的划分也不依赖于缩放,因此决策树算法不需要**特征预处理,比如归一化或标准化**。
特别是特征的尺度完全不一样时或者二元特征和连续特征同时
存在时,决策树的效果很好
决策树的主要缺点在于,即使做了预剪枝,它也经常会过拟合,泛化性能很差。因此,在大多数应用中,往往使用下面介绍的集成方法来替代单棵决策树