推荐系统与个性化广告系统中都涉及到用户点击率预估及浏览时长等的预估,点击率可通过简单地对<u, v>做一个[0, 1]之间的概率分值,u为针对某个用户,v为推荐的广告或内容。由于此类系统往往具有大量经过one-hot编码的离散特征,造成极端稀疏和高纬度特征,使得特征提取和回归点击概率变得效率地下。
FM(Factorization Machine)通过一个比输入特征短的多的特征向量<u, v>'来表示<u, v>的主要特征,并对其进行回归,给到sigmoid函数完成0-1分类预测。
具体公式表示和推导可参考:
http://www.cnblogs.com/zhangchaoyang/articles/7897085.html
https://www.cnblogs.com/zhangchaoyang/articles/8157893.html
https://blog.csdn.net/weixin_39750084/article/details/83549027
这里给出对输入向量进行稀疏表示后的FM训练与预测实现,实现代码通过C++以及借助Armadillo线性代数库完成, 具体源代码可在github项目Arma_ML浏览,欢迎给颗star哦~
fm.h如下:
/*
* Factorization Machine, mostly used in recommender systems, handling huge sparse matrixs,
predicting user actions such as whether click. Time complexity from O(kn) to O(knn)
* Mathmetics reference: http://www.cnblogs.com/zhangchaoyang/articles/7897085.html
https://www.cnblogs.com/zhangchaoyang/articles/8157893.html
https://blog.csdn.net/weixin_39750084/article/details/83549027
* comp