深入理解决策树：从原理到实践

Frisk¹²³

已于 2024-04-29 16:23:04 修改

阅读量901

点赞数 27

文章标签：决策树算法机器学习

于 2024-04-29 16:22:28 首次发布

本文链接：https://blog.csdn.net/weixin_43657889/article/details/138316196

版权

本文详细介绍了决策树在机器学习中的原理，包括树结构和决策过程。重点讲解了ID3、C4.5和CART算法，并探讨了其优缺点。通过实践部分，展示了如何选择最佳划分属性、构建决策树并防止过拟合。以鸢尾花数据集为例，演示了决策树的代码实现和应用效果。

摘要由CSDN通过智能技术生成

决策树是一种常用的机器学习算法，被广泛应用于分类和回归问题。它的简单直观的结构使得它成为了许多数据科学家和机器学习从业者的首选之一。本文将深入介绍决策树的原理、常见的算法、优缺点以及实际应用。

1. 决策树的原理

1.1 树结构

决策树是一种树形结构，由节点（node）和边（edge）组成。树的顶部是根节点（root node），每个节点可以有零个或多个子节点，最终的子节点被称为叶节点（leaf node）或终端节点（terminal node）。

1.2 决策过程

在决策树中，每个内部节点表示一个属性测试，每个分支代表一个测试输出，而每个叶节点存储一个类标签。通过从根节点开始，根据属性测试逐步向下遍历树，最终到达叶节点，从而确定实例的类别或者预测值。

2. 决策树的算法

2.1 ID3算法

ID3（Iterative Dichotomiser 3）是一种经典的决策树算法，它基于信息增益来选择最优的属性进行分裂。

2.2 C4.5算法

C4.5是ID3的改进版本，它使用信息增益比来选择最优的属性，同时支持处理连续型属性和缺失值。

$GainRatio(A) = \frac{Gain(A)}{SplitInfo(A)}$

其中，

Gain(A) 是属性 A 的信息增益，其公式在后面的内容会提到。
SplitInfo(A) 是属性 A 的分裂信息（Split Information），用于表示属性的取值数目对信息增益的影响。计算公式为：

$SplitInfo = -\sum _{i=1}^{n}\frac{\left | S_{i} \right |}{\left | S \right |} log(\frac{\left | S_{i} \right |}{\left | S \right |})$

其中，n 是属性 A 的取值数目，∣Si∣ 是属性 A 取值为 i 的样本数，∣S∣ 是总样本数。

2.3 CART算法

CART（Classification and Regression Trees）是一种通用的决策树算法，可以用于分类和回归问题。它使用基尼不纯度来选择最优的属性进行分裂，并且可以生成二叉树。

基尼不纯度（Gini impurity）是决策树算法中另一种常用的度量指标，通常用于评估一个数据集的纯度。与熵类似，基尼不纯度描述了数据集中样本的混合程度，但是计算方式略有不同。

对于一个数据集 𝑆S，假设有 𝐾K 个类别，基尼不纯度的计算公式如下：

$Gini(S) = 1 - \sum _{i=1}^{K}P_{i}^{2}$

其中， $p_{i}$ 是数据集中类别 i 所占的比例。基尼不纯度越小，数据集的纯度越高。

3. 决策树的优缺点

3.1 优点

简单直观，易于理解和解释。
可以处理数值型和类别型数据。
可以处理缺失值。
可以通过剪枝来防止过拟合。

3.2 缺点

容易过拟合，特别是当树的深度较大时。
对输入数据的噪声敏感。
不稳定，数据的微小变化可能导致完全不同的树。

4. 决策树的实践

笔者这里使用ID3算法构建决策树，主要步骤涉及选择最佳划分属性、划分数据集、递归构建子树。以下是详细的介绍：

4.1 选择最佳划分属性

信息增益（Information Gain）： 在ID3算法中，选择最佳划分属性的主要依据是信息增益。信息增益是指划分前后类别不确定性的减少程度，可以通过计算熵（Entropy）来度量。
熵：熵是表示随机变量不确定性的度量。在分类问题中，熵可以用来衡量数据集的纯度。熵的计算公式如下：

$Entropy(S) = -\sum_{i=1}^{c}p_{i}log_{2}(p_i)$

其中，𝑆S 是数据集，𝑐c 是类别的数量，𝑝𝑖pi 是类别 𝑖i 在数据集中的比例。

信息增益计算： 信息增益是指划分前后熵的差值。对于某个属性 𝐴A，可以通过以下公式计算其信息增益：

$Gain(A) = Entropy(S) - \sum_{v\in{Value(A)}}\frac{S_{v}}{S}\cdot Entropy(S_{v})$

其中，Values(A) 是属性 A 的取值集合，Sv 是属性 A 取值为 v 的样本子集。

选择最佳属性： 对于每个属性，计算其信息增益，选择信息增益最大的属性作为最佳划分属性。

4.2 划分数据集

根据最佳划分属性，将数据集划分为多个子集，每个子集对应最佳划分属性的一个取值。

4.3 递归构建子树

对每个子集，重复上述步骤，递归构建子树，直到满足停止条件。
停止条件可以是：所有样本属于同一类别、属性集为空或者达到预定深度等。

4.4 剪枝（可选）

可以通过剪枝来防止过拟合。剪枝的目的是去掉一些不必要的节点，简化模型，提高泛化能力。

4.5 代码实现

加载鸢尾花数据集，然后将数据集划分为训练集和测试集。接下来，初始化了一个决策树分类器，并在训练集上训练了模型。最后，在测试集上进行了预测，并计算了模型的准确率。

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化决策树分类器
clf = DecisionTreeClassifier()

# 在训练集上训练模型
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

# 可视化决策树
plt.figure(figsize=(12, 8))
plot_tree(clf, feature_names=iris.feature_names, class_names=iris.target_names.tolist(), filled=True)
plt.show()