深度学习在CTR中的应用

前言

预测用户响应如点击率和转换率在许多web应用程序中是十分重要的,包括web搜索、个性化推荐和在线广告。其与图像和语言中的连续原始特征不同,web空间中的输入特征是多域的,大多数是离散和分类的。主要的预测模型要么局限于线性模型,要么需要手动建立高阶组合特征,前者失去了探索特征交互的能力,后者需要大量的计算。

随着深度学习其强大的表达能力和灵活的网络结构在 NLP、图像、语音等众多领域取得了重大突破。在广告领域,预测用户点击率(Click Through Rate,简称 CTR)领域近年也有大量关于深度学习方面的研究。

本文就近几年 CTR 预估领域中学术界的经典方法进行探究,并比较各自之间模型设计的初衷和各自优缺点。通过十种不同 CTR 深度模型的比较,我们可以看出不同的模型本质上都可以由基础的底层组件组成,详见图一。
这里写图片描述

图一: CTR模型组成

1、FM:看作是线性的LR与非线性的特征组合交叉而成。

2、FNN:将FM模型训出的结果作为其中的embedding层,上面套上全连接神经网络。特征转换方法:FMs、受限玻尔兹曼机和去噪自动编码器。缺点是无法拟合低阶特征。

3、PNN:加入Product layer加强FNN中对高级特征的表征。基于内积或矩阵乘法还分为内PNN与外PNN。

4、wide&deep learning:wide层使用LR用于学习低阶特征,deep层用于增强泛化性,分别对应于memory与generalization特性。缺点是LR部分需要人工处理。此处自动学习embedding,是end-to-end模型。无需预训练。

5、DeepFM:对4中wide部分改进为FM,同时wide与deep部分共享embedding层。

6、Neural Factorization Machines:简称 NFM,提出了一种更加简单粗暴的方法,相对于5中embedding后直接把FM作为DNN输入,其在 embedding 层后,做了一个叫做 BI-interaction 的操作:让 fields 两两 element-wise 相乘后得到向量,然后直接 sum 起来,最后得到一个 k 维的向量。相当于降低了网络复杂度,但是会找成信息损失。

7、 Attention Neural Factorization Machines (AFM):前面提到的各种网络结构中的 FM 在做特征交叉时,让不同特征的向量直接做交叉,基于的假设是各个特征交叉对 CTR 结果预估的贡献度是一样的。这种假设其实是不合理的,不同特征在做交叉时,对 CTR 预估结果的贡献度是不一样的。AFM 模型利用了近年来在图像、NLP、语音等领域大获成功的 attention 机制,在前面讲到的 NFM 基础上,引入了 attention 机制来解决这个问题。 AFM 对于NFM中sum处加入权重,就是个加权累加的过程。AFM 的亮点所在,通过一个 Attention Net 生成一个关于特征交叉项的权重,然后将 FM 原来的二次项直接累加,变成加权累加。本质上是一个加权平均,学习 xjxj 的交叉特征重要性。

8、Deep&Cross Network (DCN) :在 CTR 预估中,特征交叉是很重要的一步,但目前的网络结构,最多都只学到二级交叉。LR 模型采用原始人工交叉特征,FM 自动学习 xi 和 xj 的二阶交叉特征,而 PNN 用 product 方式做二阶交叉,NFM 和 AFM 也都采用了 Bi-interaction 的方式学习特征的二阶交叉。对于更高阶的特征交叉,只有让 Deep 去学习了。为解决这个问题,Google 在 2017 年提出了 Deep & Cross Network,简称 DCN 的模型,可以任意组合特征,而且不增加网络参数。

9、Deep Interest Network (DIN) :与上面的 FNN,PNN 等引入低阶代数范式不同,DIN 的核心是基于数据的内在特点,引入了更高阶的学习范式。用户的兴趣是多种多样的,从数学的角度来看,用户的兴趣在兴趣空间是一个多峰分布。在预测 CTR 时,用户 embedding 表示的兴趣维度,很多是和当前 item 是否点击无关的,只和用户兴趣中的局部信息有关。因此,受 attention 机制启发,DIN 在 embedding 层后做了一个 action unit 的操作,对用户的兴趣分布进行学习后再输入到 DNN 中去,DIN 把用户特征、用户历史行为特征进行 embedding 操作,视为对用户兴趣的表示,之后通过 attention network,对每个兴趣表示赋予不同的权值


▌参考文献

[1] Factorization Machines

[2] Wide & Deep Learning for Recommender Systems

[3] Deep Learning over Multi-Field Categorical Data: A Case Study on User Response Prediction

[4] Product-based Neural Networks for User Response Prediction

[5] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

[6] Neural Factorization Machines for Sparse Predictive Analytics

[7] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

[8] Deep & Cross Network for Ad Click Predictions

[9] Deep Interest Network for Click-Through Rate Prediction

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值