目录
一、树模型与线性模型的融合模型
树模型GBDT原理:https://blog.csdn.net/woniu201411/article/details/83114226
线性模型LR原理:https://blog.csdn.net/woniu201411/article/details/81335863
海量的离散特征+线性模型LR,因其较高的精度和较少的运算开销在业界广为使用。 线性模型LR无法捕捉到非线性特征对标签的影响,因而提升线性模型精度的有效方法是构造有效的交叉特征。比较成熟的构造交叉特征的方法包含:
- 结合业务,构造有效的交叉特征,这种方法对线性模型的精度提升是显著的,但要花费巨大的人力和时间,特别当特征达到上百维时,难以构造有效的交叉特征;
- 根据信息增益,分箱划分连续特征,将一个连续特征划分为多个类别特征,为线性模型增加了非线性表达,提高了模型的精度和健壮性。但这种方法构造的非线性特征包含的信息是很有限的;
- 离散特征通过笛卡尔积,获取所有的组合特征,但笛卡尔积获取的组合特征呈爆炸式增长,并且很多组合特征是无效的,为线性模型增加了很多噪音。
2014年faceBook提出了