FFM原理与 LR

最新推荐文章于 2024-04-23 17:36:06 发布

深度瞎学汪

最新推荐文章于 2024-04-23 17:36:06 发布

阅读量1.6k

点赞数

分类专栏：机器学习文章标签：数据机器学习

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

FM（Factorization Machine）
因式分解机应用范围解决稀疏数据下的特征组合问题
问题原因：经过One-Hot编码之后，样本的维度大幅增加，大部分样本数据特征是比较稀疏的。
通过观察大量的样本数据可以发现，某些特征经过关联之后，与label之间的相关性就会提高。那么如何进行特征组合就是问题的关键。
多项式模型是包含特征组合的最直观的模型。
对于二阶多项式模型，两个特征之间，假设参数相互独立。
在数据稀疏性普遍存在的实际应用场景中，二次项参数的训练是很困难的。其原因是，每个参数 wijwij 的训练需要大量 xixi 和 xjxj 都非零的样本；由于样本数据本来就比较稀疏，满足“xixi 和 xjxj 都非零”的样本将会非常少。训练样本的不足，很容易导致参数 wijwij 不准确，最终将严重影响模型的性能。

解决二次项参数训练问题的办法：
矩阵分解
对二阶多项式参数进行矩阵分解
即N N = （Ni）（iN)
把以前的高维度矩阵拆开成两个低维度的矩阵就可以了
一个特征的隐变量应该理解为这个特征的低维度向量表示
所有包含“xixi 的非零组合特征”（存在某个 j≠ij≠i，使得 xixj≠0xixj≠0）的样本都可以用来学习隐向量 vivi，这很大程度上避免了数据稀疏性造成的影响。

在训练FFM的过程中，有许多小细节值得特别关注。
第一，样本层面的数据是推荐进行归一化的。
第二，特征归一化。尤其是数值型特征归一化。CTR/CVR模型采用了多种类型的源特征，包括数值型和categorical类型等。但是，categorical类编码后的特征取值只有0或1，较大的数值型特征会造成样本归一化后categorical类生成特征的值非常小，没有区分性。例如，一条用户-商品记录，用户为“男”性，商品的销量是5000个（假设其它特征的值为零），那么归一化后特征“sex=male”（性别为男）的值略小于0.0002，而“volume”（销量）的值近似为1。特征“sex=male”在这个样本中的作用几乎可以忽略不计，这是相当不合理的。因此，将源数值型特征的值归一化到 [0，1] 是非常必要的。
第三，省略零值特征。从FFM模型的表达式(4)
可以看出，零值特征对模型完全没有贡献。包含零值特征的一次项和组合项均为零，对于训练模型参数或者目标值预估是没有作用的。因此，可以省去零值特征，提高FFM模型训练和预测的速度，这也是稀疏样本采用FFM的显著优势。

作者：严林
链接：https://www.zhihu.com/question/27043630/answer/159374527
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

在广告系统中，FM的使用其实是越来越多了，目前百度、头条和bing等广告系统中都有使用，而且效果不错，毕竟FM对比LR多了二阶kernel嘛。
FM一直以来有两个问题，阻碍了其在广告上的更大规模应用，目前来看已经得到了一定的解决。这两个问题主要是：1. 预估性能；2. 可解释性。预估性能：FM的预估时间复杂度是，目前可以通过SIMD指令基本做到了近似，这里要感谢Intel的SSE、AVX和AVX2，以AVX2为例，一次可以操作256bit位宽，意味着在向量用float类型分解，k小于等于8时就是严格的，实际上k会大一些，比如64、128，这个时候一般会用到float的q2.13编码和AVX2的循环展开与流水拼接技术，尽量降低前面的常数因子（做得好的话，常数因子是完全可以降到1的）。2.可解释性：由于FM增加了二阶kernel，不是线性的，直观意义上的可解释性肯定是不如LR的，但这个问题并非无解，跟某司交流，他们从理论到实践，完整解决了二阶kernel以内的非线性模型可解释问题，由于没有得到授权，就不在这里展开讲了，一种简单粗暴的方案是将预估特征逐个的一阶、二阶项置为0，衡量预估变化程度来做解释性（特征是非IID分布时会有判断误差）。
谈到FM，那么绕不开的话题肯定包含FFM。FFM风头始于台大打KDD Cup和Kaggle，一时风头无俩。FM可以通过简单的数学变化将复杂度做到，FFM由于field划分，就没有类似的变换了，看似FFM的标准复杂度只能硬抗（尽管FFM的k会小一些）。实际上，这个问题也是有解的。一种比较好的策略是将FFM的向量做类似caffe里边的img2col展开，然后在做向量乘法，那么就完全跟FM相同了。可能会说，FFM做img2col展开是，这里还是要再次感谢SIMD指令，以Intel的三种SIMD指令来说，它提供shuffle指令，一次计算好Mask，就可在后续的计算中以复杂度做类似img2col变化啦。所以，FFM在内存上做出一些牺牲，是可以在性能上做到和FM相接近的时间复杂度的；工程做好了，前面的常数可以更小，毕竟k更小嘛。
SIMD指令还有非常多的应用，比如存储领域的纠删码实现，SIMD也是实力担纲，有机会再展开讲。
好的算法模型的应用，离不开良好的工程实现。算法研究人员平时多思考工程上的改进，也是一项不错的休闲娱乐活动。

深度瞎学汪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
FFM原理与 LR

FM（Factorization Machine）因式分解机应用范围解决稀疏数据下的特征组合问题问题原因：经过One-Hot编码之后，样本的维度大幅增加，大部分样本数据特征是比较稀疏的。通过观察大量的样本数据可以发现，某些特征经过关联之后，与label之间的相关性就会提高。那么如何进行特征组合就是问题的关键。多项式模型是包含特征组合的最直观的模型。对于二阶多项式模型，两个特
复制链接

扫一扫