决策树在sklearn中的实现

最新推荐文章于 2024-02-19 23:29:24 发布

weixin_63230368

最新推荐文章于 2024-02-19 23:29:24 发布

阅读量195

点赞数

文章标签：决策树机器学习 python

本文链接：https://blog.csdn.net/weixin_63230368/article/details/121872131

版权

概述

决策树（decision tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图结构来呈现这种规则，以解决分类和回归问题。决策树算法容易理解，使用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用

sklearn中的决策树


tree.DecisionTreeClassifier	分类树
tree.DecisionTreeRegressor	回归树
tree.export_graphviz	将生成的决策树导出为DOT格式，画图专用
tree.ExtraTreeClassifier	高随即版本的分类树
tree.ExtraTreeRegressor	高随机版本的回归树

sklearn的基本建模流程

实例化，建立评估模型对象 ---->实例化时，需要使用参数
通过模型接口训练模型
通过模型接口提取有用的信息

重要参数

criterion

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标
叫做“不纯度”。通常来说，不纯度越低，决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心
大多是围绕在对某个不纯度相关指标的最优化上。
不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是
说，在同一棵决策树上，叶子节点的不纯度一定是最低的。
Criterion这个参数正是用来决定不纯度的计算方法的。sklearn提供了两种选择：
1）输入”entropy“，使用信息熵（Entropy）
2）输入”gini“，使用基尼系数（Gini Impurity）

比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。但是在实际使用中，信息熵和基尼系数的效果基
本相同。信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏
感，

最低0.47元/天解锁文章

weixin_63230368

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树在sklearn中的实现

概述决策树（decision tree）是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图结构来呈现这种规则，以解决分类和回归问题。决策树算法容易理解，使用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用sklearn中的决策树tree.DecisionTreeClassifier分类树tree.DecisionTreeRegressor回归树tree.export_g
复制链接

扫一扫