AutoInt
Abstract
CTR的本质工作:寻找稀疏高维特征的低维表示与有效组合。
本文提出AutoInt可以自动获取高阶特征的交互。
1、Introduction
2、Related Work
NFM、PNN、FNN等进行特征的隐式交互,缺乏解释性
关于解释性主要有以下三个方向:
-
Deep&Cross、xDeepFM等显式交互,但仍缺乏解释
-
树模型,利用embedding加树模型,但是训练要分多步骤进行
-
HOFM,高阶交互可解释性
3、Problem Definition
定义1:CTR预估
设x∈ R n R^n Rn表示用户u特征与项目v特征的连接,其中分类特征用一个one-hot编码表示,n是连接特征的维数。点击率预测问题就是根据特征向量x来预测用户点击item_v的概率。
对于CTR预测,一个简单的解决方案是将x作为输入特征,并部署现成的分类器,如logistic回归。然而,由于原始特征向量x是非常稀疏和高维的,模型很容易过拟合。因此,需要在低维连续空间中表示原始输入特征。此外,利用高阶组合特征产生良好的预测性能是至关重要的。
定义2:高阶特征组合
非加运算,例如 x i 1 . x i 2 x_{i1}.x_{i2} xi1.xi2。
定义3:问题定义
给定x,要能学到x的低维表示并建立高阶特征交互的模型。
4、自动特征学习
4.1 概括
该方法的目标是将原始的稀疏高维特征向量映射到低维空间,同时建立高阶特征交互模型。
如上图所示,以稀疏特征向量x作为输入,然后是一个嵌入层,它将所有特征(包括连续和离散特征)进入同一低维空间。接下来,我们将所有的fields嵌入到一个新的交互层中,这个交互层是用multi-head self-attention实现的。对于每个交互层,通过注意机制组合高阶特征,利用多头部机制评估不同的组合,将特征映射到不同的子空间。通过叠加多个相互作用层,可以模拟不同阶的组合特征。最终交互层的输出是输入特征的低维表示,它模拟了高阶组合特征,并通过一个sigmoid函数进一步用于点击率预估。
4.2 Input Layer
xi是第i个field的特征表示。
4.3 Embedding Layer
Vi是Embedding矩阵。这个公式中的xi是one-hot编码,但是很多时候都是multi-hot编码,所以将公式2进行修改:
q是第i个field中值的数目。
为了使离散特征能与连续特征共同作用,将连续特征表示为:
如上图所示,这样Embedding层的输出是多个Embedding向量的串联。
4.4 Interacting Layer