数学建模之决策树

王的傲骨

已于 2023-04-26 11:00:21 修改

阅读量957

点赞数

分类专栏：数学建模文章标签：决策树机器学习算法

于 2023-04-25 21:30:22 首次发布

本文链接：https://blog.csdn.net/weixin_45876289/article/details/130374326

版权

数学建模专栏收录该内容

16 篇文章 1 订阅

订阅专栏

本文介绍了机器学习中的决策树算法，包括监督学习、无监督学习和强化学习的基本概念。决策树是一种非参数监督学习方法，用于分类和回归问题，涉及的关键概念有节点类型、信息熵和基尼系数。文章讨论了ID3、C4.5和CART算法的优缺点，以及过拟合、剪枝策略和回归树中的MSE。此外，还提到了交叉验证和ROC曲线、AUC在评估模型性能中的作用。

摘要由CSDN通过智能技术生成

机器学习

使用场景

分类、回归、仿真优化、量化求解、时间序列预测问题

监督机器学习

给定目标学习，房价预测，信用卡欺诈检测

2.无监督机器学习

不给定目标学习，主要用于聚类、降维

3.强化学习

达到目标会有反贵，主要用于序列决策问题

决策树

概述

决策树（Decision Tree）是一种非参数的监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，在各个行业和领域都有广泛的应用。

关键概念：（节点）

根节点：没有进边，有出边。包含最初的，针对特征的提问。

中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。

子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

决策树算法的核心是要解决两个问题：

如何从数据表中找出最佳节点和最佳分枝？

如何让决策树停止生长，防止过拟合？

重要参数

信息熵（Entropy）寻找最优的分类节点

信息熵是用来衡量一个系统有序程度的指标。系统的信息熵越大，说明该系统越为混乱，即形势越为不明朗。熵越大，越为混乱。（太阳下雨）

信息增益：衡量熵的变化, 即在选定特征A后, 数据不确定度的下降。信息增益越大, 意味着这个特征的分类的能力越强, 则优先选择这个特征。

基尼系数（Gini Impurity）

某特征下包含属性的杂乱程度

其中t代表给定的节点，i代表标签的任意分类, 代表标签分类i在节点t上所占的比例。

注意：当使用信息熵时，sklearn实际计算的是基于信息熵的信息增益，即父节点的信息熵和子节点的信息熵之差。

比起基尼系数，信息熵对不纯度更加敏感，但是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些，（对数计算量大）当信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，就可以使用信息熵（看精确速率而定）

参数	解释
如何影响模型?	确定不纯度的计算方法，帮忙找出最佳节点和最佳分枝，不纯度越低，决策树对训练集的拟合越好。
可能的输入有哪些？	默认基尼系数，填写gini使用基尼系数，填写entropy使用信息增益
怎样选取参数？	1、通常使用基尼系数 2、数据维度很大，噪音很大时就使用基尼系数 3、维度低，数据比较清晰的时候，信息熵和基尼系数没区别当决策树的拟合程度不够的时候，使用信息熵（都试一试）

ID3算法缺点

（1）不支持连续特征。

（2）采用信息增益大的特征优先建立决策树的节点。在相同条件下, 取值比较多的特征比取值少的特征信息增益大。

（3）不支持缺失值处理。

（4）没有应对过拟合的策略。

C4.5算法

连续特征：C4.5的思路是将连续的特征离散化。

C4.5算法缺点

（1）剪枝的算法有非常多, 剪枝方法有优化的空间。

（2）C4.5生成的是多叉树, 很多时候, 在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树, 可以提高效率。

（3）只能用于分类。

（4）使用了熵模型, 里面有大量的耗时的对数运算, 如果是连续值还有大量的排序运算。

1、CART算法

假设决策树是二叉树, 并且可以分类也可以回归，而且用基尼系数代替了熵模型进行特征选择, 也提供了优化的剪枝策略。

2、决策树的泛化能力

过拟合问题: 所建立的决策树模型在训练样本中表现得过于优越, 导致在验证数据集以及测试数据集中表现不佳。

预剪枝，后剪枝

3、终止生长条件

当一个节点产生两个子节点后，继续向下递归的产生新节点，最终当节点包含的数据都属于最终的类别的时候就可以终止分裂了。

剪枝

当一个分类决策树长的太深的时候，容易对一些噪声数据产生过拟合作用，因此我们需要通过剪枝来解决这个问题。

剪枝分为预剪枝和后剪枝。预剪枝是指在树的构造完成之前就知道哪些节点可以剪掉，于是干脆不对这些节点进行分类。后剪枝是指构造出完整的决策树之后再来开叉哪些节点可以剪掉。

回归树

在回归树种，没有标签分布是否均衡的问题。

1、重要参数

MSE（均方误差），父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化的损失。

其中N是样本数量，i是每一个数据样本，fi是模型回归出的数值，yi是样本点i实际的数值标签。

所以MSE的本质,其实是样本真实数据与回归结果的差异。在回归树中，MSE不只是我们的分枝质量衡量指标，也是我们最常用的衡量回归树回归质量的指标，当我们在使用交叉验证，或者其他方式获取回归树的结果时，我们往往选择均方误差作为我们的评估（在分类树中这个指标是(score)代表的预测准确率）。在回归中，我们追求的是，MSE越小越好。

但回归树中score返回的是R平方，并不是MSE。

因此在sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error去掉负号的数字。