GBDT+LR

最新推荐文章于 2024-03-10 00:09:16 发布

Mingsheng Zhang

最新推荐文章于 2024-03-10 00:09:16 发布

阅读量807

点赞数

转自：https://www.deeplearn.me/1797.html，https://cloud.tencent.com/developer/news/14063

GBDT+LR 的特征组合方案是工业界经常使用的组合，尤其是计算广告 CTR 中应用比较广泛，方案的提出者是 Facebook 2014 的一篇论文。

相关的开发工具包，sklearn 和 xgboost（ps：xgboost 是一个大杀器，并且支持 hadoop 分布式,你可以部署实现分布式操作，博主部署过，布置过程较为负责，尤其是环境变量的各种设置）

特征决定模型性能上界，例如深度学习方法也是将数据如何更好的表达为特征。如果能够将数据表达成为线性可分的数据，那么使用简单的线性模型就可以取得很好的效果。GBDT 构建新的特征也是使特征更好地表达数据。

主要参考 Facebook[1]，原文提升效果：

在预测 Facebook 广告点击中，使用一种将决策树与逻辑回归结合在一起的模型，其优于其他方法，超过 3％。

主要思想：GBDT 每棵树的路径直接作为 LR 输入特征使用。

用已有特征训练 GBDT 模型，然后利用 GBDT 模型学习到的树来构造新特征，最后把这些新特征加入原有特征一起训练模型。构造的新特征向量是取值 0/1 的，向量的每个元素对应于 GBDT 模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上，那么在新特征向量中这个叶子结点对应的元素值为 1，而这棵树的其他叶子结点对应的元素值为 0。新特征向量的长度等于 GBDT 模型里所有树包含的叶子结点数之和。

上图为混合模型结构。输入特征通过增强的决策树进行转换。每个单独树的输出被视为稀疏线性分类器的分类输入特征。增强的决策树被证明是非常强大的特征转换。

例子 1：上图有两棵树，左树有三个叶子节点，右树有两个叶子节点，最终的特征即为五维的向量。对于输入 x，假设他落在左树第一个节点，编码[1,0,0]，落在右树第二个节点则编码[0,1]，所以整体的编码为[1,0,0,0,1]，这类编码作为特征，输入到线性分类模型（LR or FM）中进行分类。

需要注意的是在 sklearn 或者 xgboost 输出的结果都是叶子节点的 index，所以需要自己动手去做 onehot 编码，然后交给 lr 训练，onehot 你可以在 sklearn 的预处理包中调用即可

论文中 GBDT 的参数，树的数量最多 500 颗（500 以上就没有提升了），每棵树的节点不多于 12。

LR模型有以下特点：

计算复杂度低；
易于并行化处理；
易于得到离散化目标值0或1，利用sigmoid函数将传统线性模型的输出值映射到(0,1)区间；
学习能力限于线性特征，需要提前进行大量的特征工程得到有效的特征及特征组合。

输入LR模型的特征很重要，但是特征组合不能直接通过特征笛卡尔积获取，只能依靠人工经验。故而如何自动化进行特征工程，规范化LR模型使用流程是一个值得研究的问题。

GBDT作为一种常用的树模型，可天然地对原始特征进行特征划分、特征组合和特征选择，并得到高阶特征属性和非线性映射。从而可将GBDT模型抽象为一个特征处理器，通过GBDT分析原始特征获取到更利于LR分析的新特征。这也正是GBDT+LR模型的核心思想——利用GBDT构造的新特征来训练LR模型。

1）为什么要使用集成的决策树模型，而不是单棵的决策树模型：一棵树的表达能力很弱，不足以表达多个有区分性的特征组合，多棵树的表达能力更强一些。可以更好的发现有效的特征和特征组合

2）为什么建树采用GBDT而非RF：RF也是多棵树，但从效果上有实践证明不如GBDT。且GBDT前面的树，特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。

Mingsheng Zhang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GBDT+LR

转自：https://www.deeplearn.me/1797.html，https://cloud.tencent.com/developer/news/14063GBDT+LR 的特征组合方案是工业界经常使用的组合，尤其是计算广告 CTR 中应用比较广泛，方案的提出者是 Facebook 2014 的一篇论文。相关的开发工具包，sklearn 和 xgboost（ps：xgboost...
复制链接

扫一扫