机器学习sklearn（6）决策树分类

最新推荐文章于 2023-06-15 23:45:00 发布

又要起名字了

最新推荐文章于 2023-06-15 23:45:00 发布

阅读量762

点赞数

分类专栏：机器学习文章标签：决策树 DecisionTreeClassifier ID3 C4.5 CART

本文链接：https://blog.csdn.net/weixin_44530236/article/details/88693359

版权

原理：由某种原则（信息熵或是基尼系数）来确定决策条件先后顺序，进而通过这一系列条件来实现对数据进行分类。优点：简单直观，生成的决策树很直观基本不需要预处理，不需要提前归一化，处理缺失值使用决策树预测的代价是O()。m为样本数既可以处理离散值也可以处理连续值可以处理多维度输出的分类问题相比于神经网络之类的黑盒分类模型，在逻辑上可以得到很好的解释可以通过交叉验证的剪...

摘要由CSDN通过智能技术生成

原理：

由某种原则（信息熵或是基尼系数）来确定决策条件先后顺序，进而通过这一系列条件来实现对数据进行分类。

优点：

简单直观，生成的决策树很直观
基本不需要预处理，不需要提前归一化，处理缺失值
使用决策树预测的代价是O( $log_{2}m$ )。m为样本数
既可以处理离散值也可以处理连续值
可以处理多维度输出的分类问题
相比于神经网络之类的黑盒分类模型，在逻辑上可以得到很好的解释
可以通过交叉验证的剪枝来选择模型，从而提高泛化能力
对于异常点的容错能力好，健壮性高

缺点：

非常容易过拟合，导致泛华能力不强。可以通过设置节点最少样本数和限制决策树深度来改进
会因为样本发生一点点的改动，导致树结构的剧烈改变。可以通过集成学习之类的方法来解决
容易陷入局部最优，可以通过集成学习之类的方法来改善
有些比较复杂的关系，比如异或，决策树很难学习，一般这种关系可以换神经网络分类方法来解决
如果某些特征的样本比例过大，生成决策树容易偏向于这些特征，可以通过调节样本权重来改善

三种决策树算法：

熵：

$H(X)=-\sum_{i=1}^{n}p_{i}log_{2}p_{i}$

联合熵：

$H(X,Y)=-\sum_{i=1}^{n}p(x_{i},y_{i})log_{2}p(x_{i},y_{i})$

条件熵：

最低0.47元/天解锁文章

又要起名字了

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习sklearn（6）决策树分类

原理：由某种原则（信息熵或是基尼系数）来确定决策条件先后顺序，进而通过这一系列条件来实现对数据进行分类。优点：简单直观，生成的决策树很直观基本不需要预处理，不需要提前归一化，处理缺失值使用决策树预测的代价是O()。m为样本数既可以处理离散值也可以处理连续值可以处理多维度输出的分类问题相比于神经网络之类的黑盒分类模型，在逻辑上可以得到很好的解释可以通过交叉验证的剪...
复制链接

扫一扫