原理笔记 - CatBoost

艳九九

已于 2024-02-28 16:21:25 修改

阅读量1k

点赞数 29

文章标签：笔记机器学习人工智能 python 决策树 c# 算法

于 2024-02-28 16:21:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44785860/article/details/136349108

版权

本文介绍了CatBoost，一种在GBDT基础上改进的算法，重点解决了类别型特征处理、预测偏移和内存效率问题。通过OrderedTS和OrderedBoosting，它提供了高效且无偏的预测。尽管模型精度高，但可能对随机数设置敏感且训练调参时间较长。

摘要由CSDN通过智能技术生成

目录

1. 类别特征编码

4. Ordered Boosting

6. 构建过程

7. Catboost优点

8. Catboost缺点

一句话概括：Category + boosting = CatBoost

CatBoost依然是在GBDT算法框架下的一种改进实现，主要解决的痛点是高效合理地处理类别型特征，另外是处理预测偏移问题（预测偏离在于类别特征编码和梯度提升方法）

1. 类别特征编码

对于categorical数据，类别特征编码说白了就是用一个数字合理代替类别。

回顾之前的算法是如何处理类别特征的

GBDT：直接把类别型当作连续型数据对待。
XGBoost：对类别特征One-hot编码后再输入模型。
LightGBM：在每步梯度提升下，将类别特征转为GS (梯度统计Gradient Statistics)。

虽然LGBM用GS编码类别特征挺厉害的，但是存在两个问题：

计算时间长：因为每轮都要为每个类别值进行GS计算。
内存消耗大：对于每次分裂，都存储给定类别特征下，它不同样本划分到不同叶节点的索引信息。

为了克服以上问题，LGBM将长尾特征聚集到一类，但也因此丢失了部分信息。对此，Catboost作者认为，LGBM的GS没有TS好，因为TS省空间且速度快，每个类别存一个数就好了。那么什么是TS呢？

2. Greedy TS

Greedy TS使用平均值作为分裂标准.

举个例子

但是，greedy TS会存在潜在问题

1. 计算时使用当前特征，因此会造成目标泄漏，预测漂移

2. train/test 数不一样

因此Greedy TS并不完美，所以Catboost作者受到在线学习算法 (即随时间变化不断获取训练集) 的启发，提出了Ordered TS。

3. Ordered TS

具体步骤如下：

(1) 随机打乱训练集，获取一个随机排列顺序

(2) 在训练集中，计算样本Ordered TS

(3) 在测试集中，用全测试集数据去计算Greedy TS

这样即充分的使用了数据，又避免了目标泄漏。

4. Ordered Boosting

CatBoost 另一个处理预测偏移问题的解决方法在于使用ordered boosting作为梯度提升方法，他与传统的梯度提升区别在于对残差的计算方法不同。

传统残差计算：当前残差等于实际值减上一轮预测值，上一轮用来预测的模型是用全部数据集训练的，所以容易预测偏移。

排序提升残差计算：基于排序提升原则去计算，当前样本残差是用前面样本训练得到的模型预测值与样本真实值做差，这样的话，样本残差计算没有让自身参与进去，避免了预测偏移得到无偏残差。

5. 对称树

Catboost是用对称树 (Oblivious Decision Tree) 作为弱学习器，树的分裂从信息增益最大的特征开始分裂，每一层使用相同的分裂标准，因此不易过拟合，且能显著加速测试执行时间。

6. 构建过程

在Ordered TS 和Ordered Boosting 的改进下，Catboost有两种提升模式：Ordered和Plain，前者是Ordered TS + Ordered Boosting，后者是标准GBDT算法搭配Ordered TS。

7. Catboost优点

能够处理类别特征
能够有效防止过拟合
模型训练精度高
调参时间相对较多

8. Catboost缺点

对于类别特征的处理需要大量的内存和时间
不同随机数的设定对于模型预测结果有一定的影响

关注

29
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
原理笔记 - CatBoost

一句话概括：Category + boosting = CatBoostCatBoost依然是在GBDT算法框架下的一种改进实现，主要解决的痛点是高效合理地处理类别型特征，另外是处理预测偏移问题（预测偏离在于类别特征编码和梯度提升方法）
复制链接

扫一扫

艳九九 CSDN认证博客专家 CSDN认证企业博客

码龄5年

16: 原创

140万+: 周排名

11万+: 总排名

1万+: 访问

: 等级

383: 积分

186: 粉丝

223: 获赞

9: 评论

114: 收藏

私信

关注

热门文章

最新评论

原理笔记 - AdaBoost
CSDN-Ada助手: 恭喜您撰写了这篇关于AdaBoost原理的博客！能够深入理解并分享这一复杂的算法原理，实属不易。对于下一步的创作建议，我建议您可以考虑加入一些实际案例或者代码实现，这样读者更容易理解和应用。期待您的下一篇作品！祝您创作顺利！
原理笔记 - CatBoost
CSDN-Ada助手: 恭喜您发布了第15篇博客！阅读了您的原理笔记 - CatBoost，觉得内容非常有深度，对CatBoost的原理解析十分透彻。希望您能继续保持这样的创作热情和专注，为读者带来更多有价值的内容。建议您在以后的创作中，可以尝试加入一些实际案例分析或者应用场景的探讨，让读者更好地理解和应用所学知识。期待您的下一篇作品！祝您创作顺利！
原理笔记 - XGBoost算法
CSDN-Ada助手: 恭喜你写了第13篇博客！看到你分享关于XGBoost算法的原理笔记，我觉得你对这个算法有很深的理解。希望你能继续保持创作的热情，不断分享自己的学习心得和经验。或许下一步可以考虑写一些实际应用案例，让读者更直观地了解XGBoost算法在实际项目中的应用。希望你能继续努力，不断进步！
原理笔记 - 决策树
CSDN-Ada助手: 恭喜你写了第10篇博客，标题为“原理笔记 - 决策树”！你对决策树的理解和分享让读者受益匪浅。希望你可以继续保持创作的热情，探索更多有趣的主题，并结合实践经验分享给大家。也许下一步可以考虑深入研究一些新兴的机器学习算法或者数据挖掘技术，相信你会有更多有价值的见解和经验分享。期待你的下一篇博客！
代码实战 - 深度学习之混合模型
CSDN-Ada助手: 恭喜您写了这么深入的一篇博客，对深度学习混合模型进行了实战的探讨，让读者受益匪浅。希望您能继续坚持创作，不断分享您的学习心得和实战经验。下一步建议可以考虑结合具体的案例，深入分析混合模型在实际项目中的应用，以及优化方法的探讨。期待您更多的精彩分享！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。