现实中的决策树模型之日常吃饭

最新推荐文章于 2024-09-26 15:38:33 发布

hard_WKER

最新推荐文章于 2024-09-26 15:38:33 发布

阅读量1.6k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/weixin_45704536/article/details/108920214

版权

本文介绍了决策树模型的概念及其在日常生活中的应用，以去食堂吃饭为例，探讨了如何通过特征选择、信息熵、信息增益等概念来模拟决策过程。文章详细阐述了特征选择的重要性，以及信息熵、条件熵、互信息和相对熵等信息论概念，还讲解了ID3算法的实现、剪枝处理（包括预剪枝和后剪枝）以及连续值和缺失值的处理策略。通过对决策树的学习和理解，读者可以更好地掌握决策树在实际问题中的运用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树

决策树是一种基本的分类与回归方法，决策过程中提出的每一个判定问题都是对某一个属性的“测试”，每个测试结果或是导出最终结论，或是导出进一步的判定问题，其考虑范围在上次决策结果的限定范围之内。
决策树学习的目的是 为了产生一颗泛化能力强，即处理未见示例能力强的决策树。决策树图形如下图所示
决策树在分类问题中，表示基于特征对实例进行分类的过程，可以认为它是if-then规则，也可以认为他是定义在特征空间与类空间上的条件概率分布

假设给定训练数据集 $\boldsymbol{D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}}$
其中， $\boldsymbol{x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T}$ 为输入实例，也叫做特征向量， $\boldsymbol{n}$ 为特征个数， $\boldsymbol{y_i\in\{1,2,\cdots,K\}}$ 为类标记， $\boldsymbol{i=1,2,\cdots,N}$ ， $\boldsymbol{N}$ 为样本容量。

以去食堂吃饭为例：
在这里插入图片描述

它的特征空间分布如下图：

在这里插入图片描述

在上例中特征向量的维数为2，也就是只有两个判断特征，那么它的特征空间就是二维平面的，类别数也只有两个：去吃饭和吃nm，其中 $\omega_1,\omega_2$ 为实例的两个类别（去吃饭和吃nm），假定特征 $\boldsymbol{x_1}$ 的阈值为 $\boldsymbol{\epsilon_1}$ ，特征 $\boldsymbol{x_2}$ 的阈值为 $\boldsymbol{\epsilon_2}$ ，根据阈值将特征空间划分为几个部分

上图就是本人每天去食堂的心理决策图，可以看出先进行决断的指标是在我看来最重要的，也就是在我心中占比最大的，之后的指标的重要程度一层层降低。这在决策树中也是一样的，这些指标在决策树中被称为规则。

特征选择

计算机通过一些特别的算法能理解数据中所蕴含的知识信息，这些数据被称为特征，划分数据集中实例的规则就是从这些特征中选出来。那么在数据集中实例的特征会有一些对划分实例有比较重要的作用，有一些特征对于划分实例没什么作用，那么就会产生一些问题。

数据集哪个特征在划分数据分类时起决定作用？

为了找到决定性的特征，划分出最好的结果，我们必须评估每个特征，使杂乱无章的数据变得更加有序，原始数据集被划分为几个数据子集。

这些数据子集会分布在第一个决策点的所有分支上，如果某个分支下的数据属于同一个类型，则无需进一步对数据集进行分割。如果数据子集内的数据不属于同一类型，则需要重复分割数据子集的过程，划分数据子集的算法和划分原始数据集的算法相同，直到所有具有相同类型的数据均在一个数据子集。

如何判断划分的子集属于父集？

首先引入一个概念信息增益（在划分数据集之前之后信息发生的变化），可以使用信息论量化度量信息的内容。

信息熵

一条信息的信息量与其不确定性有着直接的联系。例如：我们要搞清楚一件不确定的的事，一无所知的事，就需要大量的信息，相反如果对某件事了解较多，则不需要太多的信息就能把它搞清楚。从这个角度来看，可以认为，信息量等于不确定性的多少。系统不确定性越多，信息熵就越大。
信息熵表示为： $\boldsymbol{Ent(D)=-\sum^K_{k=1}p_k\log_2(p_k)}$ 单位是比特（bit）
$\boldsymbol{K}$ 表示数据集中有 $\boldsymbol{K}$ 个类别， $\boldsymbol{p_i}$ 表示第 $\boldsymbol{i}$ 类样本在样本集合 $\boldsymbol{D}$ 中所占比例为