用于预测点击率的深度会话神经网络
-
摘要
点击率在很多工业应用中起着重要作用,比如在线广告和推荐系统。如何从用户的行为序列中捕捉用户动态的、不断变化的兴趣,仍然是CTR预测中一个不断研究的课题。然而,多数已有的研究忽视了这些序列的内在结构,这些序列由会话组成,会话是用户行为,与它们发生的时间相分离。我们发现用户行为在同一个会话中是高度同质均匀的,不同会话中是异构的。基于这个观察结果,我们提出了一种新型的CTR模型,叫做DSIN,利用他们行为序列中的用户历史会话。我们首次使用带有偏置编码的自注意力机制来提取用户的兴趣,然后使用双向LSTM来对用户的兴趣在会话之间不断发展并相互影响的关系进行建模。最后,我们使用局部激活单元自适应学习各种会话兴趣对目标商品的影响。
CTR预估是指对每次广告的点击情况做出预测,预测用户是点击还是不点击,计算出某类用户在给定环境下购买给定商品的概率有多高,例如要给特定用户推荐某个或者某些电影(电影是一个产品),这个用户看这个电影的概率有多高。 -
介绍
在亚马逊(Amazon)和淘宝(Taobao)等网络应用中,推荐系统在帮助用户找到他们喜欢的商品方面正变得越来越不可或缺。典型的,一个工业推荐系统包含两个阶段,候选生成和候选排名;候选生成阶段采用一些幼稚但时间有效的推荐算法(例如,基于项目的协同过滤[Sarwar et al., 2001])来从庞大的整个项目集中提供相对较小的项目集进行排名。在候选排序阶段,采用复杂但功能强大的模型(如神经网络方法)对候选项进行排序,从中选择出前k项进行推荐。在这篇文章中,我们主要关注候选排名阶段,并将它视为点击率预测任务。这意味着我们假定有相关的小商品数据集已经提供用于排名,我们根据他们的CTR分数预测来对商品排名。
一些有效的CTR模型利用反映用户动态发展兴趣的行为序列得出了比较好的效果。然而,这些模型忽视了序列内部的结构,这些序列是由会话组成,会话是在给定时间框架内发生的交互(用户行为)的列表。我们观察到用户行为在每个会话和异构交叉会话中都是高度同构的。
下面是一个从真实的工业应用程序中收集的会话演示。图片下方的数字表示单击当前项和单击第一个项之间的时间间隔(以秒为单位)。会话按照时间间隔超过30分钟的原则进行分配。
受到以上的观察的启发,我们提出深度会话兴趣网络在CTR任务中对用户序列行为建模,利用他们多历史会话。有三个关键部分在DSIN,首先我们将用户的行为分割成会话,然后使用带有偏移编码的自注意力网络来对每个会话建模。自注意力可以捕获会话行为中的内在联系,提取每个会话中用户的兴趣。这些多个会话兴趣可能彼此之间有联系,甚至服从某种序列模式。所以在第二个部分,我们使用双向LSTM来捕获用户历史会话兴趣之间的演变关系。因为不同会话兴趣对目标商品可能会有不同的影响,最终我们设计了局部激活单元来整合他们,形成最终行为序列的目标商品表示。
主要贡献:
• 我们强调用户行为在每个会话和异构交叉会话中都是高度同构的, 并提出了一种新的模型DSIN,它可以有效地为CTR建模用户的多个会话预测。
• 我们设计了一个带有偏见编码的自我注意网络,以获得每个会话的准确兴趣表示。然后我们使用Bi-LSTM来捕获历史会话之间的顺序关系。最后,考虑不同会话兴趣对目标条目的影响,采用局部激活单元进行聚合。
• 对广告和产品推荐数据集进行了两组对比实验。实验结果表明,与其他先进模型相比,我们提出的DSIN模型在CTR预测任务中的优越性
本文的创新点有两个
- 将用户行为按照时间间隔内的会话分割,并且使用偏移编码来构造每个会话之间的位置关联。
- 使用多种注意力机制整合会话,用户行为。
- 模型
- 基础模型
基础模型包含:特征表示,嵌入,MLP 和损失函数
特征表示:
在基础模型中包含三组特征,用户配置,商品配置,用户行为,每组由一些稀疏特征组成,用户配置由性别、城市,商品配置由商家id,品牌id,行为由用户最近点击商品id组成
嵌入:
将大规模稀疏特征嵌入到低维稠密向量
多层感知机
损失函数
D是训练数据集,x是上面三个特征嵌入,y 0,1 ,p表示点击的概率
- Session Division Layer
将用户的行为序列按每30分钟的间隔分组,S->Q ,Q是会话集合
- Session Interest Extractor Layer
为了捕获同一会话中的内在关系,降低不相关行为的影响,我们使用了多头注意力机制,并对其进行改进来更好的达到目标。
1) 偏置编码
为了充分利用序列的顺序关系,自注意力机制应用对输入嵌入进行位置编码,此外,还需要捕获会话的顺序关系和不同表示子空间中存在的偏差。因此,我们提出了偏置编码
单纯的对序列的位置编码不足以反映他们的位置关系,因此加入了对于会话,对于会话中的这一个行为的位置编码。
对于Q来说,形状是KTC
上面公式的意思是对于第K个会话的第T个行为的第C个维度进行位置编码。
这里的操作和Attention is all you need 中的操作一致,二者相加。
2)多头自注意力
此处的思想是Attention is all you need中的Transformer机制
Avg()是平均池化
3)Session Interest Interacting Layer
使用双向LSTM对多头注意力产生的嵌入进行编码
4)Session Interest Activating Layer
这里的激活实质是用户会话的兴趣对目标商品的影响,
此处使用的软注意力机制,将目标商品看成解码器中的单词,用户行为序列看成是编码器中的隐向量,对用户序列赋予不同的权重得出目标商品的表示