【FM-RS】FM-based Recommendation Model：FM、FFM

最新推荐文章于 2024-08-16 22:11:32 发布

chad_lee

最新推荐文章于 2024-08-16 22:11:32 发布

阅读量469

点赞数 1

分类专栏：推荐系统论文解读 CTR 文章标签：机器学习深度学习算法

本文链接：https://blog.csdn.net/yanguang1470/article/details/121409146

版权

本文深入探讨了FM（Factorization Machines）模型，包括其动机、实际应用场景、模型原理和复杂度优化。FM通过引入隐向量解决矩阵分解在特征交叉上的局限，同时减少了参数数量。FFM（Field FM）在此基础上引入场概念，每个特征对应多个隐向量，提高了模型的表达能力。FFM的二次项系数通过与特征field相关的隐向量点积得到，预测复杂度为O(kn2)。

摘要由CSDN通过智能技术生成

FM（Factorization Machines） ICDM’10

动机一：矩阵分解是一个很好的方法，但是我们似乎只能利用用户物品评分这一个信息，用户和物品辅助特征都不能利用起来。FM就就可以解决这个问题，把所有特征都用一个向量表示（latent factor）。不由得让人想起“万物皆可embedding”。

动机二：稀疏场景下，叉乘特征导致参数量爆炸，并且无法学习。这个是原论文里的动机。

真实场景例子

论文举了一个电影评分的例子，先来观察一下7个样本的矩阵：

很明显上图的左边一大块是特征，右边的Target y表示的预测结果，也就是用户可能对电影做出的评价。这里一共有[1, 2, 3, 4, 5]这5种可能，也就是说这是一个多分类的问题。

接着我们再来看特征，特征一共也有5个部分，其中蓝色的部分表示的用户的one-hot。那么这个数组的长度应该是用户的数量，只有代表当前用户的那一维为1，其他均为0。

红色部分表示电影，同样是电影的one-hot，和用户的one-hot是一样的逻辑。代表当前电影的那一维度为1，其他为0。

之后是黄色的部分，表示的之前用户对于电影的评分行为，维度同样是电影的数量。凡是用户评分过的电影分数大于0，没有评分的等于0。得分的计算逻辑是1除以用户评论过的电影数量。比如第一行当中，第一个用户评价过前三部电影，所以前三部电影每一部分到了的 $\frac{1}{3}$ 分数。

绿色的部分只有1维，表示的是用户评论电影的时间。计算方法是将记录当中最早的日期作为基数（这里是2009年1月），之后每过一个月，增加1。比如2009年5就可以折算成5。

最后棕色的部分表示的是用户最近一次评论的电影，这同样是一个one-hot的数组，它的维度和电影的数量是一致的。

我们假设用户的数量是U，电影的数量是M，那么最后得到的整个特征的维度数应该是U+3M+1。即使是小众一些的电影评分网站，用户数也至少是以上百万起的，再加上电影的数量，这显然是一个非常庞大的数字。而在这么庞大的维度当中只有少数的一些维度是有值的，其余均为0。

FM模型原理

在我们介绍FM模型的方程之前，先来回顾一下线性回归的表达式：
$Y=W^{T} X=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}$
也就是说 $W=\left(w_{0}, w_{1}, w_{2}, \cdots, w_{n}\right)$ ， $W$ 是这样一个 $n + 1$ 维的向量， $X$ 是一个 $\times m$ 的特征矩阵。这里的 $n$ 是特征的维数， $m$ 是样本的数量。所以我们也经常把它写成 $Y = W X$ 。

线性回归只利用特征的一次项，缺点在于线性模型中假设不同特征之间是独立的，即特征 $x_i、x_j(i≠j))$ 不会相互影响。为了解决简单线性模型无法学得特征间交叉影响的问题，做特征的时候经常叉乘特征：会把两项特征组合起来做成新的组合特征，这样也引入了非线性的能力：
$\hat{y}=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n-1} \sum_{j=i+1}^{n} w_{i j} x_{i} x_{j}\\ =w_{0}+\mathbf{w}_{\mathbf{1}}^{T} \mathbf{x}+\mathbf{x}^{T} \mathbf{W}_{\mathbf{2}} \mathbf{x}$
这里 $x_i$ 和 $x_j$ 分别代表两个不同的特征值，对于 $n$ 维的特征来说这样的组合应该有 $C_{n}^{2} = \frac{n(n-1)}{2}$

最低0.47元/天解锁文章

chad_lee

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【FM-RS】FM-based Recommendation Model：FM、FFM

FM（Factorization Machines） ICDM’10动机一：矩阵分解是一个很好的方法，但是我们似乎只能利用用户物品评分这一个信息，用户和物品辅助特征都不能利用起来。FM就就可以解决这个问题，把所有特征都用一个向量表示（latent factor）。不由得让人想起“万物皆可embedding”。动机二：稀疏场景下，叉乘特征导致参数量爆炸，并且无法学习。这个是原论文里的动机。真实场景例子论文举了一个电影评分的例子，先来观察一下7个样本的矩阵：很明显上图的左边一大块是特征，右边的Tar
复制链接

扫一扫

专栏目录