决策树笔记

最新推荐文章于 2024-11-02 15:22:06 发布

zhazhawoaini

最新推荐文章于 2024-11-02 15:22:06 发布

阅读量692

点赞数

文章标签：决策树笔记机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhazhawoaini/article/details/131326634

版权

决策树模型的学习涉及特征选择，通过信息增益最大化纯度。纯度通常用熵来衡量，降低熵表示增加纯度。独热编码用于处理离散特征，而连续特征则直接计算信息增益。回归树聚焦于预测数值，减少权重方差。树集成如随机森林通过多棵树投票提高稳定性，防止过拟合。XGBoost是一种优化的梯度提升方法，专注于错误示例，适用于分类和回归任务。

摘要由CSDN通过智能技术生成

决策树模型学习过程

1.根节点选择什么特征
2.只关注决策树的左侧分支
3.再关注右侧分支
在这里插入图片描述

纯度

熵就是样本的混乱程度，熵越大，越混乱，纯度就越低
减小熵=信息增益

选择拆分信息增益

在这里插入图片描述
选择信息增益大的，以增加纯度
p1left 定义为等于左子树中具有正标签(即猫)的示例的分数
w^left 定义为转到左子分支的根节点的所有示例的示例的分数
p1right 定义为等于右子树中具有正标签(即猫)的示例的分数
w^right 定义为转到右子分支的根节点的所有示例的示例的分数

整合

在这里插入图片描述

独热编码One-hot

在这里插入图片描述

处理两个及两个以上离散的特征，其中一个特征始终取1（热特征）

连续有价值的功能

在这里插入图片描述
使用拆分时，只需考虑要拆分的不同值，执行通常的信息增益计算，并决定在该连续值特征提供尽可能高的信息增益时，进行拆分

回归树

预测一个数字
尝试减少每个数据子集的值Y的权重方差
在这里插入图片描述

使用多个决策树

一个决策树对数据比较敏感，构建多个决策树的树集成
使用树集合的原因是通过拥有大量决策树并让它们投票，它使整体算法对任何一棵树可能正在做的事情不太敏感，因为它只能获得三分之二的一票或i许多不同的投票,使整体算法更加健壮

有放回抽样（替代抽样）

会有重复，可能有的没有被抽样

随机森林（袋装决策树）

把训练示例放入虚拟包
选k个信息增益最大的特征然后放入袋子里随机选一个分裂
将参数范围缩小有助于避免过拟合。而且也不用担心某些关键参数没被选上，因为是随机深林，这个决策树没选上，还有下一个决策树。
在这里插入图片描述

在这里插入图片描述

XGBoost

极端梯度提升，决策树多选择错误的示例
用于分类
在这里插入图片描述
用于回归

何时使用决策树

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。