统计学习方法——决策树（一）

最新推荐文章于 2023-11-05 17:31:16 发布

你的名字5686

最新推荐文章于 2023-11-05 17:31:16 发布

阅读量1.3k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/wk19951125/article/details/88606904

版权

本文介绍了决策树的基础知识，包括决策树模型的定义、条件概率分布、决策树学习过程。特征选择部分讨论了信息增益、信息增益率和基尼指数。接着详细讲述了ID3生成算法，以及如何通过剪枝防止过拟合。最后提到了预剪枝和后剪枝策略。

摘要由CSDN通过智能技术生成

决策树

决策树是一种基本的分类与回归方法，主要包括三个步骤：特征选择、决策树生成以及决策树修剪。其主要特点包括模型具有可读性、分类速度快。

特征选择在于选择对训练集具有分类能力的特征，通常使用的标准包括信息增益、信息增益比等。

信息熵：度量样本集合纯度最常用的一种指标。
假定样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k \left( k=1,2,...,\left| y \right| \right)$ ，则 $D$ 的信息熵定义为：
$Ent\left( D \right)=-\sum_{k=1}^{|y|} p_klog_2p_k$
$E n t (D)$ 的值越小，则 $D$ 的纯度越高。
信息增益
假定离散属性 $a$ 有 $V$ 个可能取值 ${a^1,a^2,...,a^V}$ ,第 $v$ 个分支节点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记为 $D^v$ ,赋值权重为 $D^v|/|D|$ ，信息增益则为：
$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$