DG-ENN: Dual Graph enhanced Embedding Neural Network for CTR Prediction (KDD’21)
性能简直无敌了,线下这个收益上线岂不是xx亿的收益?代价就是虽然是个端到端的模型,但是用到了全数据集的邻接矩阵,这可以在数据集上搞,可以在工业场景用吗?
就论文本身而言,我个人认为这篇文章的缺点是:我反复读这篇文章,发现根本无法实现其 “分治、field-wise” 的做法。所以我按我的理解介绍。
Motivation:稀疏的特征和稀疏的交互
在CTR场景中:(1)很多特征是很稀疏的,只出现很少的次数,这些特征的语义很难很好的学出,更不要说学出这些特征和其他特征的组合特征了;(2)很多用户的交互行为也是很稀疏的(长尾用户),导致长尾用户的兴趣也很难很好的学出。
问题(2)已经被广泛用GNN来解决了:NGCF、LightGCN等;那么问题(1)也可以用GNN来解决,所以再构建一个“Attribute Graph Convolution”来解决这个问题,这就是文章题目中“Dual Graph”的来源。
输入与输出
和所有CTR模型一样,模型的输入包括用户u、商品v、用户属性 A u A_u Au、商品属性 A v A_v Av、用户点击过的商品序列 S u S_u Su、背景信息C,经过embedding layer输入模型的就是:
E = [ e u , e v , e A u , e B v , e S u , e C ] E=\left[e_{u}, e_{v}, e_{A_{u}}, e_{B_{v}}, e_{S_{u}}, e_{C}\right] E=[eu,ev,eAu,eBv,eSu,eC]
E E E 是各种模型的输入:DIN、DSIN等,文章提出的模型就是一个 “enhanced Embedding Neural Network”,其输出的
P = [ p ^ u , p ^ v , z A u , z B v , p ^ S u , e C ] P=\left[\hat{p}_{u}, \hat{p}_{v}, z_{A_{u}}, z_{B_{v}}, \hat{p}_{S_{u}}, e_{C}\right] P=[p^u,p^v,zAu,zBv,p^Su