嘿,记得给“机器学习与推荐算法”添加星标
| 作者:YEN
| 单位:东北大学
| 研究方向:推荐系统、计算广告
今天分享一篇百度公司发表在SIGIR 2021的点击率预估方面的Short Research Paper论文。
深度神经网络(DNN)模型已被广泛应用于在线广告点击率(CTR)预测。CTR训练框架通常由嵌入层和多层感知机(MLP)组成。在百度搜索广告系统中(又名凤巢,Phoenix Nest[1]),新一代的CTR训练平台变成了PaddleBox,一个基于GPU的参数服务器系统。
在这篇论文中,作者介绍了百度最近更新的CTR训练框架,称为门控增强的多任务神经网络(GemNN)。特别地,他们开发了一种基于神经网络的多任务学习模型用于CTR预估,它以粗粒度到细粒度的方式逐步减少候选广告,并允许上游任务与下游任务之间的参数进行共享,从而提高训练效率。此外,作者还在嵌入层和MLP之间引入了门控机制,用于学习特征交互和控制传递到MLP层的信息流。
作者在百度PaddleBox平台部署了该模型方案,并观察到在离线和在线评估方面都有相当大的改进,它现在已经是百度广告系统的一部分。
本文结构:
广告系统背景
提出的GemNN模型
-
基于多任务的模型 Multi-task Neural Network based model
门控增强的多任务模型 Gate-enhanced Multi-task NN model
实验效果
-
离线实验
在线实验
消融实验
广告系统背景
工业广告系统通常从数以百万计的候选广告中选择和排序广告。一个常见的做法(如百度的MOBIUS[2])是利用多层漏斗形结构,在几个阶段交付广告:通常包括候选广告生成阶段和重排序阶段。候选生成阶段将语料库从数百万缩减到数千或数百,重排序阶段估计候选广告的ctr和cpm,并向用户提供排名靠前的广告。
值得注意的是,在工业广告系统中,重排序通常有几个子步骤,其中每个子步骤都有一个神经网络模型来