机器学习之通俗快速了解决策树

最新推荐文章于 2023-03-02 22:03:32 发布

Go_Data__

最新推荐文章于 2023-03-02 22:03:32 发布

阅读量247

点赞数 1

分类专栏：数据分析文章标签：决策树机器学习剪枝数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44900533/article/details/105798480

版权

数据分析专栏收录该内容

12 篇文章 3 订阅

订阅专栏

如何拥有一棵决策树

决策树为什么叫决策树：↓↓↓↓↓↓↓↓ ① 可以用来做决策，做预测 ②长得就像一棵树 ↓↓↓↓↓↓↓↓↓

那么该如何构建一棵你自己的决策树呢？

决策树结构：除了知道决策树是一棵逆引力生长的树，还需要知道

根节点：顾名思义，像根一样的节点，即起始节点
非叶子节点(决策点)：就是岔路口，决定通向哪个决策的节点，再通俗一点说就是下面还有分支的节点
叶子节点：叶子就是树的尽头了吧，也就是下面再没有分支的节点

>>> 我们的目标是：得到一颗尽可能浓缩了精华的矮子树！

① 种树前咱先得知道两个概念：熵值和信息增益

熵值：内部混乱程度，越混乱，熵值就越大。

比如袋子A里面全是黑球，袋子B里面有黑的白的红的黄的紫的绿的蓝的灰的，那么袋子B的熵值就比袋子A大。

熵值的计算公式：

袋B的熵值：- (黑球的概率*log2(黑球的概率) + 白球的概率*log2(白球的概率) + .......)

**** 除熵值之外，咱也可以用Gini不纯度来表示混乱程度：

信息增益：经过这个次岔路口我们可以增加多少信息。

决策树的目的就是把混混乱乱的东西变纯纯粹粹的。所以我们希望通过决策树逐步降低混乱程度，也就是降低熵值。混乱程度越低了，那我们是不是了解的信息就能更多了呢。比如袋A一点都不混乱，我们知道啊这是一个黑球袋子。袋B乱七八糟，咱们啥也讲不出来。降低的熵值 = 增加的信息量。

信息增益 = 该非叶子节点的熵值 - 权重 * 该节点下面每一个分支的熵值

② 如何选择每一个节点呢？相亲对象是该先看脸呢还是先看学历呢？

>>> 我们的目标是：得到一颗尽可能浓缩了精华的矮子树！(重要的话说第二遍)

因此我们想要每经过的一个岔路口，给我们降低的熵值是最大的，给我们的信息增益是最大的！

很简单，所有的特征都算一遍，哪一个的信息增益最大，就选它！选它！选它！

③ 决策树的过拟合

>>> 我们的目标是：得到一颗尽可能浓缩了精华的矮子树！(重要的话说第三遍)

什么是过拟合：就是咱用测试集建的模型在训练集上表现的太完美了，训练集定制版模型。那么这个模型在测试集上就会表现的不好。 ------------ 这可不好，咱们想要的可是得能通用的

我们的决策树要是长得太高，就会出现过拟合的现象

④ 剪枝

>>> 我们的目标是：得到一颗尽可能浓缩了精华的矮子树！(重要的话说第四遍)

为了避免决策树长太高，就要对其咔咔剪枝！

剪枝的方法也有两种：

预剪枝：在构建决策树的过程中，我们希望它提前停止。如：限制决策树深度；限定分支中最小的实例数量
后剪枝：决策树构建好后，然后才开始剪枝。如：比较剪枝前后两个模型的表现，如果差不多就可以剪掉

本文只是简单梳理了一下决策树原理，感兴趣的小伙伴可以再多了解C4.5，损失函数等等

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。