机器学习：决策树入门+面试常见问题及解析（看这篇就够了）-CSDN博客

本文链接：https://blog.csdn.net/weixin_73784131/article/details/147400235

一、决策树核心原理与结构

算法定位与核心思想：决策树是一种监督学习算法，广泛应用于分类和回归任务。其核心思想是通过树形结构组织特征与判断逻辑，将数据集依据特征不断分裂，最终在叶子节点输出分类或回归结果。每个内部节点代表对某个特征的判断，分支对应判断结果，而叶子节点则表示最终分类或预测值。
树的构成与生成过程：决策树由根节点、内部节点和叶子节点组成。根节点包含全部样本，内部节点通过特征判断分裂数据，叶子节点为分类结果。生成过程基于训练样本，通过学习数据特征分布，自动确定特征分裂规则，逐步构建树形结构。例如在金融贷款风险评估中，可依据客户年收入、房产、车辆等特征，构建决策树判断是否发放贷款。
树的形态与特性：决策树可以是二叉树（每次分裂为两个子节点）或多叉树（每次分裂为多个子节点），树的层数决定其深度。特征选择、节点分裂和阈值确定是构建决策树的关键，不同选择会生成差异显著的决策树。其本质类似民主决策，通过多轮 “投票” 筛选特征，形成最优树状结构。

二、决策树中的信息度量与特征选择

信息熵：衡量数据混乱程度：信息熵是度量数据不确定性的指标，公式为 H(x) = -Σ p(x) * log(p(x))，其中 p(x) 是数据属于某类别的概率。熵值越高，数据越混乱；熵值越低，数据纯度越高。例如 “太阳从东方升起” 是确定事件，信息熵低；“太阳从西边升起” 是偶然事件，信息熵高。
联合熵与条件熵：
- 联合熵：H(x, y) = -Σ p(x, y) * log(p(x, y))，描述两个随机变量 x 和 y 的共同不确定性；
- 条件熵：H(y | x) = -Σ p(x, y) * log(p(y | x))，表示在已知 x 的条件下，y 的不确定性。二者关系为 H(x, y) = H(x) + H(y | x) 。
信息增益：特征选择的核心：信息增益是联合熵与条件熵的差值，即 信息增益 = H(x) - H(y | x)，反映某个特征为分类系统带来的信息量。信息增益越大，该特征对分类越重要，决策树构建时优先选择信息增益高的特征进行分裂。
基尼系数：另一种纯度度量：基尼系数用于描述数据纯度，公式为 Gini = 1 - Σ p(x)^2，表示随机选中的样本被分错的概率，基尼系数越小，数据纯度越高。与信息熵相比，基尼系数计算无需对数运算，效率更高，在二分类问题中与信息熵走势相似，但物理意义不同（基尼系数侧重分错概率，信息熵侧重不确定度）。在 scikit-learn 中，决策树默认使用基尼系数（criteria='gini'）进行划分。

三、决策树面临的问题与优化策略

算法局限性：
- 训练复杂度高：预测复杂度为 O (log m)（m 为样本数），但训练时每层需尝试 n 到 m 次（n 为数据维度），数据量和特征增多时训练耗时显著增加；
- 易过拟合：作为非参数学习方法，决策树可能过度拟合训练数据，导致模型在新数据上泛化能力差；
- 决策边界局限：决策边界多为水平或竖直划分，难以拟合复杂非线性边界；
- 稳定性差：数据微小变化可能导致生成完全不同的决策树。
剪枝优化：剪枝是解决过拟合的核心手段，分为：
- 限制深度：通过设置 max_depth 参数，控制树的层数，避免过度分裂；
- 限制广度：利用 min_samples_split（最小样本划分）、min_samples_leaf（最小叶子节点样本数）、max_leaf_nodes（最大叶子节点数）等参数，限制叶子节点数量；
- 权重调整：通过 mean_weight 等权重参数，平衡样本分布，减少过拟合风险。