机器学习实战----决策树

最新推荐文章于 2022-04-17 18:43:49 发布

只布布倩

最新推荐文章于 2022-04-17 18:43:49 发布

阅读量361

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhangyingjie09/article/details/83039571

版权

一基本信息

决策树是一种常见的机器学习算法。它是基于树的结构来进行决策，这很符合我们人类面临问题时候的处理机制。

包括：一般一棵决策树包括一个根节点、若干内部节点和叶节点。叶节点对应着决策结果。

目的：产生一棵泛化能力强，对处理未见示例能力强的决策树。决策树学习的本质是从训练数据中归纳出一组分类规则，与训练数据集不相矛盾的决策树可能会有很多个，我们需要一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。

决策树的学习算法通常是一个递归的选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集都有一个最好的分类过程。决策树的学习算法更像是从一堆训练数据中训练出一个模型，减少数据的不确定性。比如给我们一批训练数据，我们如何从训练数据中发现规律，为什么数据被分为不同的类别，是什么决定了分类。如何能正确的为新数据分类。但是仅凭给定的数据，去直接判断类别是随机的，是存在不确定性的，如何消除不确定性呢？不断引入信息，那什么是信息呢？特征是信息，我们可以借助数据的特征，那么借助数据的哪些特征呢？能最大消除不确定性的特征。根据这个特征对数据集进行切分。之后呢，再找能够最大消除各个被切分的数据集不确定性的各自的特征。如此循环下去直到所有的样本找到正确的标签(分类)，这样决策树就诞生了。

在决策树中，消除不确定的方法常用的有三种：ID3、C4.5、CART，他们分别采用的是信息增益、信息增益率和基尼指数