NFM（Neural Factorization Machines for Sparse Predictive Analytics）

最新推荐文章于 2022-04-05 15:32:54 发布

糖葫芦君

最新推荐文章于 2022-04-05 15:32:54 发布

阅读量875

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/yinyu19950811/article/details/90345786

版权

22 篇文章 1 订阅

订阅专栏

embedding的方式：

FM：以线性的方式学习二阶特征交互，对于捕获现实数据非线性和复杂的内在结构表达力不够；
深度网络：例如Wide&Deep 和DeepCross，简单地concatenation特征embedding向量不会考虑任何的特征之间的交互, 但是能够学习特征交互的非线性层的深层网络结构又很难训练优化；

算法过程：
在这里插入图片描述
第一与第二部分与FM中相似，第三部分是一个多层的前向神经网络用来建模特征交互；

embedding层： $V_x=\{x_iv_i\}\ \ where\ \ x_i \neq 0$
Bi-Interaction layer:将 $V_x$ 送进Bi-interaction layer，其是一个pooling操作将embedding向量的集合转换为一个向量:

其中 $\odot$ 是两个元素的乘积，其输出是一个k-dim的向量编码了在embedding space中特征之间的二阶交互；
重要的是，Bi-Interaction pooling没有引入额外的模型参数，可以在线性的时间计算：

$O(kN_x)$ 时间，其中 $N_x$ 代表x中非零项的个数，这个特征意味着Bi-Interaction在建模成对特征交互时没有映入额外的消耗；（为什么是线性的时间复杂度）？？？

与FM相比，额外的模型参数主要是 ${W_l, b_l\}$ ，被用于学习特征之间的高阶交互。
与FM模型的关系：
FM可以看作是没有隐层的NFM，把去掉隐层的NFM叫做NFM-0：
在这里插入图片描述

可以看出，如果固定h为一个常数向量 $(1, 1, . . ., 1)$ ,可以直接得到FM模型；由此可以得到：FM被表达为了神经网络框架的形式，我们可以在FM上使用不同的神经网络技术来提升它的学习和泛化能力；

实验效果（只具有一个隐藏层）：>FM(7.3%), 与Wide&Deep和DeepCross相比，使用了浅层的结构但是提供了更好的性能，更少的模型参数，更容易去训练和调整；
对比于其他传统的深度学习模型仅仅在浅层，concatenate或者average embedding向量，使用Bi-Interaction pooling 编码更多的有价值的特征交互；

预测分析，类别变量（用户，操作，广告）不同于图像和音频中的raw features都是高度稀疏的；

关注

专栏目录