Detecting Beneficial Feature Interactions for Recommender Systems (AAAI’21)
这篇的motivation和method都更自然一些,就是有的地方写的不太清楚。
Motivation
DeepFM等一系列模型注重于挖掘高阶特征,但是这些模型只管挖不管筛。对于一个样本有 J J J 个特征,二阶组合特征就有 J ( J − 1 ) / 2 J(J-1)/2 J(J−1)/2 个,大量的特征组合自然也有大量无用特征,会降低模型质量和速度,所以怎么合理对特征组合进行剪枝,是本文所研究的问题。这篇文章只考虑二阶特征组合。
同样地,这篇文章以特征作为节点建立Graph,把识别重要特征交互任务看作图上的 Link Prediction 任务,然后把 CTR 任务看作图分类任务。
所以从大的角度上看,这篇可以看作在Fi-GNN的基础上剪枝邻接矩阵。
Method: L 0 L_0 L0-SIGN
每个节点有两套embedding v i e v_{i}^{e} vie 和 u i {u}_{i} ui,分别用于L0模块和SIGN模块。SIGN模块的作用类似于DCN、DeepFM中的特征交互模块,L0模块的作用则是为SIGN模块剪枝。
L 0 L_0 L0 Edge Prediction Model
最简单的Edge Prediction方案就是MF,这里用一个MLP的模型 f e p f_{e p} fep 来识别节点 i i i 和节点 $ j$ 之间是否存在边:
f e p ( v i e , v j e ) = W 2 e Re L U ( W 1 e ( v i e ⊙ v j e ) + b 1 e ) + b 2 e : R 2 × b → Z 2 f_{e p}\left(v_{i}^{e}, v_{j}^{e}\right) = W_{2}^{e} \operatorname{Re} L U\left(W_{1}^{e}\left(v_{i}^{e} \odot v_{j}^{e}\right)+b_{1}^{e}\right)+b_{2}^{e}: \mathbb{R}^{2 \times b} \rightarrow \mathbb{Z}_{2} fep(vie,vje)=W2eReLU(W1e(vie⊙v