文章目录
IFM:样本感知的FM模型—— An Input-aware Factorization Machine for Sparse Prediction
1、提出原因
提出了一种从全新的角度来改进 FM 的方法,尝试优化特征在不同实例场景下的表示。
在实际应用中,同一特征能通常在不同数据实例情况下具有不同的预测能力,并且每种数据情况下最有用的特征也有所不同。
例如,在第一个例子中,特征 𝑓𝑒𝑚𝑎𝑙𝑒 在以下情况下对于点击概率显然至关重要:{年轻,女性,学生,粉红色,裙子 }。但是,在另一种情况下:{ 年轻,女性,学生,蓝色,笔记本 },特征 𝑓𝑒𝑚𝑎𝑙𝑒 的重要性相对较低。
因此,应在不同数据实例场景上需要为同一特征分配不同级别的预测能力,以更好地反映其特定贡献。
2、模型介绍
1、预估公式
IFM的预估公式为:
其中第一项和第二项分别对数据的整体偏差和特征一阶权重进行建模,而第三项则捕获精确的二阶特征交互。
在IFM 方法中,公式中的第二项和第三项以非线性方式对每个特征受不同数据条实例的影响进行建模,可以看出权重 𝑤_x,𝑖 和每个特征的嵌入向量 v_x,𝑖 不仅与第 𝑖 个特征相关,而且与输入向量 x相关。
2、网络结构
上图中深色部分代表在FM原始模型之外新添加的部件。
以下介绍网络结构中的每一个具体环节
1、Embedding Layer
同FM一样,IFM也给每一个特征赋予对应的embedding向量,如针对上图中的x输入,由于x是离散变量转换为对应one-hot之后的结果,因此是极其稀疏的,我们在计算中也只需要考虑取值为1的特征。假设每条样本总共有h个取值为1的特征,将其对应的h个embedding进行拼接,得到k * h维的向量Vx。
2、Factor Estimating Network
这部分是论文核心创新点
其主要作用是针对不同的样本,对每一个特征计算样本感知权重
m
x
,
i
m_{x,i}
mx,i,并作用于一次项权重wi和embedding向量vi。子网络结构如下:
特征重要度的计算过程如下:
3、Reweighting Layer
经过Factor Estimating Network得到输出mx,i,就可以对样本每个特征的一次项权重和embedding向量进行refine,计算公式如下:
4、FM Prediction Layer
同FM一样,IFM在预测时,也可以对公式进行相应的化简,其结果如下:
3、实验表现