python｜决策树算法

最新推荐文章于 2023-11-06 21:54:44 发布

windblocks

最新推荐文章于 2023-11-06 21:54:44 发布

阅读量156

点赞数

分类专栏： python 文章标签： python 决策树算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/windblocks/article/details/120384756

版权

python 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

python｜决策树算法

b站Tommy唐国梁
之前一直在解决客户流失预测，从github上面用kaggle为例子做了一个模拟，发现用的最多还是决策树的模型，于是决定学习，整理一下这周的学习内容，然后赶紧搜集代码，赶工。

1.什么是决策树

（1）由一个根结点，若干个内部节点，若干个叶子结点构成，内部节点是一个判断的问题，叶子结点是可能有的结果。
（2）可以解决分类和回归问题，天然解决多分类问题
（3）非参数学习算法，不同于tensorflow通过数据学习调整参数，主要是自己调参。

2.决策树的目标

通过一种衡量标准，来计算通过不同的特征进行分支选择后的分类情况，找出最好的特征当成根结点，以此类推。

3.两大问题

（1）每个节点在哪个维度上做划分？
（2）每个维度在哪个值做划分？

4.两大措施（衡量标准）

核心原理类似但是计算方式不太一样
（1）信息熵entropy
（2）基尼系数gini

5.信息熵（ID3）

什么是熵：在信息论中代表随机变量的不确定性的度量
熵越小，数据的不确定性越高；反之则反。
计算公式：主要是对数函数的特征，当x=1，函数值为0.还有就是负号也是一个特点

6.基尼系数（CART算法）

在分类问题中，假设有k个类别，样本点属于第i类的概率为pi，则概率分布的基尼系数定义为：

7.决策树的最大挑战——过拟合

应对措施：剪枝，降低过拟合风险，提高模型的泛化能力（在测试集和训练集上都有很好的表现）。
（1）预剪枝（常用）
定义：边建立决策，边剪枝。
方法：限制深度，叶子结点个数，叶子结点样本数，信息增益等。（sklen函数库）
（2）后剪枝
定义：当建立完决策树后，再来进行剪枝操作。
方法：通过一定的衡量标准（计算叶子结点的损失）下图为计算公式。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python｜决策树算法

python｜决策树算法1.什么是决策树2.决策树的目标3.两大问题4.两大措施（衡量标准）5.信息熵（ID3）6.基尼系数（CART算法）7.决策树的最大挑战——过拟合b站Tommy唐国梁之前一直在解决客户流失预测，从github上面用kaggle为例子做了一个模拟，发现用的最多还是决策树的模型，于是决定学习，整理一下这周的学习内容，然后赶紧搜集代码，赶工。1.什么是决策树（1）由一个根结点，若干个内部节点，若干个叶子结点构成，内部节点是一个判断的问题，叶子结点是可能有的结果。（2）可以解决分类
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。