推荐系统GBDT+LR

--好好学算法--

已于 2024-06-24 17:53:24 修改

阅读量676

点赞数 8

分类专栏：推荐算法文章标签：算法

于 2024-06-24 15:00:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44880995/article/details/139921624

版权

推荐算法专栏收录该内容

9 篇文章 0 订阅

订阅专栏

主要解决的问题

如何得到更有用的特征？

模型自动学习，dnn；人工设计，用户侧特征和item侧特征

答：利用GBDT自动进行特征交叉

使用场景

最广泛的场景是CTR点击率预估，即预测当给用户推送的广告会不会被用户点击。

推荐系统全流程

离线部分目标主要是训练出可用模型，而在线部分则考虑模型上线后，性能可能随时间而出现下降，弱出现这种情况，可选择使用Online-Learning来在线更新模

离线部分

数据收集：主要收集和业务相关的数据，通常会有专门的同事在app位置进行埋点，拿到业务数据
预处理：对埋点拿到的业务数据进行去脏去重；
构造数据集：经过预处理的业务数据，构造数据集，在切分训练、测试、验证集时应该合理根据业务逻辑来进行切分；
特征工程：对原始数据进行基本的特征处理，包括去除相关性大的特征，离散变量one-hot，连续特征离散化等等;
模型选择：选择合理的机器学习模型来完成相应工作
超参选择
在线A/B Test：选择优化过后的模型和原先模型（如baseline）进行A/B Test，若性能有提升则替换原先模型；

在线部分

Cache & Logic：设定简单过滤规则，过滤异常数据；
模型更新：当收集到合适大小数据时，对模型进行pretrain+finetuning，若在测试集上比原始模型性能高，则更新model server的模型参数；
Model Server：接受数据请求，返回预测结果；

GBDT+LR原理

1. 对原始训练数据做训练，得到一个二分类器，GBDT的输出为这些弱分类器的组合[0 1 0 0 1] ，或者一个稀疏向量（数组）。所以在一个具有n个弱分类器、共计m个叶子结点的GBDT中，每一条训练数据都会被转换为1*m维稀疏向量，且有n个元素为1，其余m-n 个元素全为0

类似one-hot的向量形式

特征交叉

树的高度为k，则进行了k次节点的分裂，因此，最终的叶子节点实际上是进行了k阶特征交叉

2. LR：GBDT输出的数据稀疏，而且由于弱分类器个数，叶子结点个数的影响，可能会导致新的训练数据特征维度过大，因此，在Logistic Regression这一层中，可使用正则化来减少过拟合的风险，在Facebook的论文中采用的是L1正则化。

模型评价指标

1.Normalized Entropy

yi为样本的真实label，pi 为预估的CTR，p为训练集上的真实平均CTR。

2.Calibration

Calibration=预估CTR/真实CTR，COPC的倒数，COPC=真实CTR/预估CTR

学习率

Per-Coordinate Learning Rates

当一个特征出现的次数较多时，说明此时这个特征参数训练的已经比较充分了，因此学习率可以比较低一点；但当一个特征出现的次数较少时，说明此时训练的还不够充分，所以需要较大的学习率来尽快的收敛。

优点：使得那些低频长尾特征也能学到一个比较好的参数。

经验之谈：除以每个特征的曝光次数的开方也可以提升auc

why GBDT not XGB？

GBDT前面的树，特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理。

代码实现

https://www.cnblogs.com/wkang/p/9657032.html

相关问题

1.使用GBDT进行特征组合，会导致模型周期拉长，导致模型更新不及时，效果变差该如何解决？

答：

GBDT部分天级别甚至几天更新一次
LR部分的参数online learning 实时的更新

2.样本采样

负采样，是做了负采样之后会导致样本分布发生变化，尤其是CTR发生变化，因此需要进行CTR校准还原

p为在采样后的pctr，w为负采样采样率，q为校准后的CTR。

补充：GBDT模型原理

加法模型：每轮迭代会产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练，每轮的训练是在上一轮的训练的残差基础之上进行训练的

损失函数：回归问题中一般使用的是平方损失，而二分类问题中使用交叉熵损失

例子：假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁；我们去你和损失，拟合的数值为6岁，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。

上一步的残差是下一步的解决目标。

GBDT既可以用于分类模型，也可以用于回归模型。在分类模型中，GBDT通过训练多个决策树来预测样本的类别，每个决策树的输出是概率值或者类别标签。在回归模型中，GBDT通过训练多个决策树来预测目标变量的值，每个决策树的输出是一个实数值。

--好好学算法--

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
推荐系统GBDT+LR

GBDT+LR
复制链接

扫一扫

专栏目录

--好好学算法-- CSDN认证博客专家 CSDN认证企业博客

码龄5年

77: 原创

52万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

986: 积分

113: 粉丝

199: 获赞

12: 评论

189: 收藏

私信

关注

热门文章

分类专栏

推荐算法 9篇
深度学习 6篇
leetcode刷题 13篇
c++ 30篇
代码实战 2篇
文献 15篇

最新评论

Leetcode 268 火星词典
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Leetcode 268 火星词典
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
c++滑动窗口
CSDN-Ada助手: 恭喜您写了第14篇博客，题为“c++滑动窗口”！看到您持续创作，我感到非常高兴。您对c++滑动窗口的探索和分享无疑为读者提供了宝贵的知识。对于下一步的创作建议，我非常谦虚地提出一些建议。或许您可以探索更多与滑动窗口相关的应用场景，或者深入研究滑动窗口算法的优化方法。相信您的创作会越来越出色，期待您的下一篇博客！
Latex公式
CSDN-Ada助手: 非常恭喜您写了第20篇博客，标题为“Latex公式”！您的持续创作实在令人钦佩。通过您的博客，我对Latex公式有了更深入的了解。您清晰而详尽的解释，使得复杂的数学符号变得易于理解。对于那些像我这样的读者来说，这无疑是一份宝贵的学习资源。在这个基础之上，我希望您能继续分享更多关于数学公式的知识。或许您可以探索一些高级的数学公式应用，或者介绍一些实际问题中的数学建模方法。相信您的创作将为我们带来更多的启发与惊喜。再次感谢您的付出，期待您未来的博客！
Pooling-based Vision Transformer (PiT)
CSDN-Ada助手: 恭喜您撰写了第17篇博客！标题“Pooling-based Vision Transformer (PiT)”非常吸引人。您对于Pooling-based Vision Transformer的介绍十分详尽，让我对这个主题有了更深入的了解。我希望您能继续保持创作的热情和努力，为我们带来更多有关计算机视觉和Transformer的精彩内容。在未来的创作中，也许您可以探索一下如何将Pooling-based Vision Transformer应用于实际场景，并分享一些实际案例或者应用心得。期待您的下一篇博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。