几种推荐系统图:
(1)基于模型协同过滤的核心思想
概述:
基于模型的协同过滤推荐就是基于样本的用户喜好信息,训练一个推荐模型,然后根据实时的用户喜好的信息进行预测,计算推荐。
基于模型的推荐算法,是与基于近邻的推荐算法相对的。基于近邻的推荐算法,主要是将所有的用户数据,读入内存,进行运算,当数据量特别大时,显然这种方法是不靠谱的。因此出现了基于模型的推荐算法,依托于一些机器学习的模型,通过离线进行训练,在线进行推荐。
基于模型推荐系统的优势:
- 节省空间:一般情况下,学习得到的模型大小远小于原始的评分矩阵,所以空间需求通常较低。
- 训练和预测速度快:基于近邻的方法的一个问题在于预处理环节需要用户数或物品数的平方级别时间,而基于模型的系统在建立训练模型的预处理环节需要的时间往往要少得多。在大多数情况下,压缩和总结模型可以被用来加快预测
算法分类:
基于模型的协同过滤作为目前最主流的协同过滤类型,当只有部分用户和部分物品之间是有评分数据的,其它部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的用户和物品之间的评分关系,找到最高评分的物品推荐给用户。
基于模型协同过滤的方法:
- 关联算法
- 聚类算法
- 分类算法
- 回归算法
- 矩阵算法
- 神经网络、图模型以及隐语义模型来解决
(2)矩阵分解详解
基本思想:
矩阵分解,直观上来说就是把原来的大矩阵,近似分解成两个小矩阵的乘积,在实际推荐计算时不再使用大矩阵,而是使用分解得到的两个小矩阵。按照矩阵分解的原理,我们会发现原来m x n的大矩阵会分解成m x k 和k x n的两个小矩阵,这里多出来一个k维向量,就是隐因子向量(Latent Factor Vector),类似的表达还有隐因子、隐向量、隐含特征、隐语义、隐变量等。
基于矩阵分解的推荐算法的核心假设是用隐语义(隐变量)来表达用户和物品,他们的乘积关系就成为了原始的元素。这种假设之所以成立,是因为我们认为实际的交互数据是由一系列的隐变量的影响下产生的,这些隐变量代表了用户和物品一部分共有的特征,在物品身上表现为属性特征,在用户身上表现为偏好特征,只不过这些因子并不具有实际意义,也不一定具有非常好的可解释性,每一个维度也没有确定的标签名字,所以才会叫做“隐变量”。
而矩阵分解后得到的两个包含隐变量的小矩阵,一个代表用户的隐含特征,一个代表物品的隐含特征,矩阵的元素值代表着相应用户或物品对各项隐因子的符合程度,有正面的也有负面的
根据如下的计算公式,我们来举例:
矩阵的转置:
(3)矩阵分解图例及数据演化过程
矩阵分解过程举例:
使用之前的用户一电影评分表,5个用户(U表示),6个电影(M表示)。现在假设电影的风格有以下几类:喜剧,动作,恐怖。分别用K1、K2、K3来表示。那么我们希望得到用户对于风格偏好的矩阵U,以及每个风格在电影中所占比重的矩阵M
通常情况下,隐因子数量k的选取要远远低于用户和电影的数量,大矩阵分解成两个小矩阵实际上是用户和电影在k维隐因子空间上的映射,这个方法其实是也是一种“降维”(Dimension Reduction)过程。
矩阵分解目标:
我们再从机器学习的角度来了解矩阵分解,我们已经知道电影评分预测实际上是一个矩阵补全的过程,在矩阵分解的时候原来的大矩阵必然是稀疏的,即有一部分有评分,有一部分是没有评过分的,不然也就没必要预测和推荐了。
所以整个预测模型的最终目的是得到两个小矩阵,通过这两个小矩阵的乘积来补全大矩阵中没有评分的位置。所以对于机器学习模型来说,问题转化成了如何获得两个最优的小矩阵。因为大矩阵有一部分是有评分的,那么只要保证大矩阵有评分的位置(实际值)与两个小矩阵相乘得到的相应位置的评分(预测值)之间的误差最小即可,其实就是一个均方误差损失,这便是模型的目标函数。
矩阵分解的优势:
- 比较容易编程实现,随机梯度下降方法依次迭代即可训练出模型。比较低的时间和空间复杂度,高维矩阵映射为两个低维矩阵节省了存储空间,训练过程比较费时,但是可以离线完成;评分预测一般在线计算,直接使用离线训练得到的参数,可以实时推荐。
- 预测的精度比较高,预测准确率要高于基于领域的协同过滤以及内容过滤等方法。
矩阵分解的缺点:
- 模型训练比较费时。
- 推荐结果不具有很好的可解释性,分解出来的用户和物品矩阵的每个维度无法和现实生活中的概念来解释,无法用现实概念给每个维度命名,只能理解为潜在语义空间。
矩阵分解的作用:
- 矩阵填充(通过矩阵分解来填充原有矩阵,例如协同过滤的ALS算法就是填充原有矩阵)
- 清理异常值与离群点
- 降维、压缩
- 个性化推荐
- 间接的特征组合(计算特征间相似度)
(4)SVD算法之交替最小二乘(ALS)详解
前面我们已经提到类似与下面公式的计算过程就是矩阵分解,还有一个更常见的名字叫做SVD;但是,SVD 和矩阵分解不能划等号,因为除了SVD还有一些别的矩阵分解方法。
SVD全称奇异值分解,属于线性代数的知识;然而在推荐算法中实际上使用的并不是正统的奇异值分解,而是一个伪奇异值分解。SVD是矩阵分解、降维、压缩、特征学习的一个基础的工具,所以SVD在机器学习领域相当的重要
前面已经从直观上大致说了矩阵分解是怎么回事,这里再从物理意义上解释一遍。矩阵分解,就是把用户和物品都映射到一个k维空间中,这个k维空间不是我们直接看得到的,也不一定具有非常好的可解释性,每一个维度也没有名字,所以常常叫做隐因子,代表藏在直观的矩阵数据下面的。
举个例子,用户u的向量是pu,物品i的向量是qi,那么,要计算物品i推荐给用户u的推荐分数,直接计算点积即可:
如何为每个用户和物品生成k维向量
这个问题可以转化成机器学习问题,要解决机器学习问题,就需要寻找损失函数以及优化算法。SVD的损失函数是这样定义的:
这个损失函数由两部分构成
前一部分就是: 用分解后的矩阵预测分数,要和实际的用户评分之间误差越小越好。
后一部分就是: 得到的隐因子向量要越简单越好,以控制这个模型的方差,换句话说,让它在真正执行推荐任务时发挥要稳定。
整个SVD的学习过程就是
- 准备好用户物品的评分矩阵,每一条评分数据看做一条训练样本;
- 给分解后的U矩阵和V矩阵随机初始化元素值;
- 用U和V计算预测后的分数;
- 计算预测的分数和实际的分数误差;
- 按照梯度下降的方向更新U和V中的元素值;
- 重复步骤3到5,直到达到停止条件。
交替最小二乘原理(ALS)
按照机器学习的套路,就是使用优化算法求解下面这个损失函数,重点是求出用户向量Pu和物品向量Qi,来保证损失函数的值最小。这种模式可以套在几乎所有的机器学习训练中:就是一个负责衡量模型准不准,另一个负责衡量模型稳不稳定,有了这个目标函数后,就要用到优化算法找到能使结果最小的参数。优化方法常用的选择有两个,一个是随机梯度下降(SGD),另一个是交替最小二乘(ALS)。
交替最小二乘的本质是找出能使结果最小的参数,让两个矩阵P和Q相乘后约等于原矩阵R:
交替最小二乘过程
- 初始化随机矩阵Q里面的元素值;
- 把Q矩阵当做已知的,直接用线性代数的方法求得矩阵P;
- 得到了矩阵P后,把P当做已知的,故技重施,回去求解矩阵Q;
- 上面两个过程交替进行,一直到误差可以接受为止。
交替最小二乘优势
- 在交替的其中一步,也就是假设已知其中一个矩阵求解另一个时,要优化的参数是很容易并行化的;
- 在不那么稀疏的数据集合上,交替最小二乘通常比随机梯度下降要更快地得到结果
自Spark2.0之后,对ALS的支持力度非常大,包含的API非常丰富。
(5)基于SVD算法之交替最小二乘(ALS)完成推荐开发
package com.similarity
import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.recommendation.ALS.Rating