推荐系统笔记二、矩阵分解协同过滤

最新推荐文章于 2025-04-01 09:47:31 发布

xbmatrix

最新推荐文章于 2025-04-01 09:47:31 发布

阅读量749

点赞数

分类专栏：推荐系统

推荐系统专栏收录该内容

12 篇文章

订阅专栏

参考：http://blog.csdn.net/wangjian1204/article/details/50465109

一、概述：

矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间（latent factor space），以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈（explicit feedback）：用户直接表明对item的兴趣，例如评分[1,2,3,4,5]. 隐式反馈（implicit feedback）：通过观察用户行为得到的信息，例如浏览历史、搜索记录等。

二、符号定义和度量标准：

U：用户集合；I：item集合；
R：评分集合， rui 表示用户 u∈U 对item i∈I 的评分； r̂ ui 表示预测评分；
K：(u,i)集合，且评分 rui 已知；
tui ：用户u对item i评分的时间；
Ui ：已经给item i打分的用户集合； Iu ：已经被用户u打分的item集合；

评价推荐系统时最重要的两个问题是评分准确率和Top-N推荐问题。评分准确率问题常用的度量标准有Root Mean Squared Error （RMSE），Precision，Recall等。Top-N推荐常用的度量标准有NDCG，Average Reciprocal Hit-Rank（ARHR）等。

三、偏置项：

矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间（latent factor space），以用户偏好和item属性的匹配程度来预测评分。但是，仅仅这样是不够的，例如A和B两个用户的偏好类似，但是A比较容易满足，倾向于给item打高分；而B倾向于给item打低分（Item上也有类似的情况）。为了解决这个问题，需要为每个用户和item增加一个偏置项。评分 rui 的偏置部分定义为：

b u i = μ + b u + b i

其中 μ 是评分集合R中所有评分的均值， bu 是用户u的偏置， bi 是item i上的偏置。可以通过梯度下降算法最优化下面这个式子来求解 bu,bi ：

min b * \sum (u, i) \in K (r u i - μ - b u - b i) 2 + λ (\sum u b 2 u + \sum i b 2 i)

正则化项

λ(∑ub2u+∑ib2i) 可以避免过拟合。关于梯度下降算法的详细介绍可以参考我的另一篇博文：深入了解梯度下降算法

另外还有一种简单的偏置项计算方法，如下所示：

b i = \sum u \in U i ( r u i - μ ) β 1 + | U i | b u = \sum i \in I u ( r u i - μ - b i ) β 2 + | I u |

式子中的

β1,β2 是平滑因子。这种方法直接通过解析式计算偏差均值，计算简单，但是结果准确度较差。

四、SVD矩阵分解：

在推荐系统矩阵分解的发展历程中，有研究员提出先对评分矩阵进行补全，从而可以对一个dense矩阵进行分解。但是这样做有两个缺点：一是补全数据和dense 矩阵分解大大增加了计算量；二是不精确的评分补全会导致结果有较大的偏差。所以目前的研究工作都建议使用原始的稀疏评分矩阵，并且使用正则化项来避免过拟合。

假设用户u投影到f维隐空间后的向量表示为 pu∈Rf ，item i的隐空间表示为 qi∈Rf 。隐空间的每一维都表示一个偏好因子，则用户u和item i的匹配程度可以用他们的内积 q⊤ipu 来衡量。计算预测评分：