因子分解机Factorization Machine

最新推荐文章于 2021-06-26 20:54:35 发布

wonengguwozai

最新推荐文章于 2021-06-26 20:54:35 发布

阅读量407

点赞数

分类专栏：推荐杂谈文章标签：机器学习算法因子分解机

原文链接：https://zhuanlan.zhihu.com/p/109541098?utm_source=wechat_session&utm_medium=social&utm_oi=748243204704317440&utm_campaign=shareopn

版权

推荐杂谈专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在看推荐领域论文时提到了FM(因子分解机)，于是搜集资料梳理了一下，以下知乎文章讲的比较好并且其引文中的讲解质量也很高，贴在下面，如侵权请通知，第一时间删除。

前言

FM算法在 LR 的基础上加入二阶特征组合，即任意两个特征进行组合，将组合出的特征看作新特征，加到 LR 模型中。
本文要讲解的FM(Factorization Machine)名字听起来非常硬核，但原理其实很简单。只是在普通线性模型的基础上增加了二阶(或更高阶)的特征交叉，利用矩阵分解的思想把 $n * n$ 的权重矩阵映射到 $n * k$ 的空间内。

正文

1. 首先看一下普通线性模型的公式：

在这里插入图片描述
普通的线性模型有一个明显的短板，模型本身只考虑了一阶特征，因此需要人工来做高阶的特征交叉。

2. 如果我们希望模型能自动学习到二阶的特征组合，该怎么做呢？

很容易想到下面的公式：
在这里插入图片描述
利用一个 $n * n$ 的对称矩阵 $W$ ，来表示特征 $x_i$ 和 $x_j$ 的关系系数，通过模型自动学习出合适的 $W$ 来进行预测。时间复杂度： $O(n^2)$ 。

这样做有一个巨大的缺点，那就是很难适应稀疏的样本数据，可以看到， $x_i$ 和 $x_j$ 只要有一个是0，那么对应的 $W_i,_j$ 取值就没有意义。在过于稀疏的数据下训练，容易使 $W$ 训练不充分，从而影响到最终的预测结果。

3. 再看一下FM是如何解决样本稀疏的问题的

在这里插入图片描述
我们知道，对于任何一个正定矩阵 $W$ ，都能分解为 $V*V^T$ 。文章便是采用这种思想，把 $n * n$ 的权重矩阵 $W$ 映射到 $n * k$ 维的 $V$ 。

这里的 $k$ 取值是自定义的， $n * k$ 维的 $V$ 表示了 $n$ 个特征的关系向量，因此 $k$ 越大它的表达能力也越强，当然 $k < < n$ 。

这样做的优点如下：
(1) 有效适应稀疏数据。

不管是 $v_i,v_j>$ 还是 $v_i,v_k>$ ，只要包含 $v_i$ 都能对 $v_i$ 进行训练，因此只要存在 $i, j$ 满足 $x_i* x_j\neq0$ ，模型就能正常训练。

(2) 2方法里各个特征之间的关系系数 $W_i,_j$ 是相互独立的；而采用FM的方法，可以提高泛化能力。

举个例子：

如果我们知道 $v_1,v_2>$ 的值，那么 $v_1,v_2>$ 的值无从得知；

但是，如果我们知道 $v_1,v_2>$ 和 $v_1,v_3>$ 的值，假设他们都为0，那么，起码我们能得出 $v_2,v_3>$ 一定不为0（简单的正交性质）。

(3) 通过一系列的优化能把时间复杂度降到线性O(k*n)。
在这里插入图片描述
(4) 扩展到更高阶，下面的公式非常直观。

参考资料

https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf
https://zhuanlan.zhihu.com/p/50426292

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。