主线2.1FFM算法原理详解

最新推荐文章于 2021-07-19 12:15:47 发布

工藤旧一

最新推荐文章于 2021-07-19 12:15:47 发布

阅读量1.6k

点赞数 1

分类专栏： # CTR 文章标签：算法

本文链接：https://blog.csdn.net/weixin_45459911/article/details/105128711

版权

CTR 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

一、FFM原理介绍：

1、FFM的引入：
FFM（Field-aware Factorization Machine）其实就是FM的进阶版，我们先来回顾一下FM的公式：
在这里插入图片描述
其中，样本x是n维向量，xi是第i个维度上的值。vi是xi对应的长度为K的隐向量，V是模型参数，所以所有样本都使用同一个V，即x1,1与x2,1都使用v1。
FFM则是将隐向量v又进一步细化（引入了field的概念，即将特征所在的不同的field这个信息也考虑进去），其公式如下：
在这里插入图片描述
其中，fj 是第 j 个特征所属的field。如果隐向量的长度为 k，那么FFM的二次参数有 nfk 个，远多于FM模型的 nk 个。此外，由于隐向量与field相关，FFM二次项并不能够化简，其预测复杂度是 O(kn2)

2、FFM的特征组合方式：
举一个例子进行辅助说明：
在这里插入图片描述
对上面出现的信息进行分类标注(红字代表所在的field,蓝字代表特征,绿字代表特征的值):

FM的特征组合方式为：

FFM的特征组合方式为：

不难看出：FM中有w1,w2,w3,w4,w5五个隐向量，但到了FFM中有4x5==20个（field数目x特征数目）

3、隐向量维度和参数量：
在FFM中因为隐向量被进一步细化了，所以维度不必像FM那么长。
在这里插入图片描述
假设样本特征有n维,共有f个field,每个隐向量有k维。
FFM中交叉项的参数量就是nfk1,FM中交叉项参数量是nk2。
但是因为FFM的隐向量维度更低（k1<k2）所以FM可能是几十或几百维,FFM就几维或几十维，但当field过多时,还是FFM参数多(一般来说是这样)但其效果也更好.

4、FFM的应用场景：
和FM算法一样，FFM主要应用在推荐算法中的CTR点击率预估（排序）问题，推荐系统一般可以分成两个模块，召回和排序。比如对于电影推荐，召回模块会针对用户生成一个推荐电影列表，而排序模块则负责对这个电影列表根据用户的兴趣做排序。当把FFM算法应用到推荐系统中时，具体地是应用在排序模块。

参考：
https://www.cnblogs.com/zhangchaoyang/articles/8410719.html
https://www.cnblogs.com/zhangchaoyang/articles/8157893.html
https://www.cnblogs.com/wkang/p/9788012.html
https://blog.csdn.net/yanhx1204/article/details/79711333
https://blog.csdn.net/xxiaobaib/article/details/97799017