协同过滤之ALS-WR算法

这篇文章是参考:https://github.com/ceys/jdml/wiki/ALS 改写的,由于原文Latex公式没有正常展现+少量笔误,妨碍阅读,所以这里重新整理了一下。

ALS是alternating least squares的缩写 , 意为交替最小二乘法;而ALS-WR是alternating-least-squares with weighted-λ -regularization的缩写,意为加权正则化交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如:将用户(user)对商品(item)的评分矩阵分解为两个矩阵:一个是用户对商品隐含特征的偏好矩阵,另一个是商品所包含的隐含特征的矩阵。在这个矩阵分解的过程中,评分缺失项得到了填充,也就是说我们可以基于这个填充的评分来给用户最商品推荐了。

ALS

由于评分数据中有大量的缺失项,传统的矩阵分解SVD(奇异值分解)不方便处理这个问题,而ALS能够很好的解决这个问题。对于R(m×n)的矩阵,ALS旨在找到两个低维矩阵X(m×k)和矩阵Y(n×k),来近似逼近R(m×n),即:

gif.latex其中R(m×n)代表用户对商品的评分矩阵,X(m×k)代表用户对隐含特征的偏好矩阵,Y(n×k)表示商品所包含隐含特征的矩阵,T表示矩阵Y的转置。实际中,一般取k<<min(m, n), 也就是相当于降维了。这里的低维矩阵,有的地方也叫低秩矩阵。

为了找到使低秩矩阵X和Y尽可能地逼近R,需要最小化下面的平方误差损失函数:

gif.latex其中xu(1×k)表示示用户u的偏好的隐含特征向量,yi(1×k)表示商品i包含的隐含特征向量, rui表示用户u对商品i的评分, 向量xu和yi的内积xuTyi是用户u对商品i评分的近似。

损失函数一般需要加入正则化项来避免过拟合等问题,我们使用L2正则化,所以上面的公式改造为:

gif.latex其中λ是正则化项的系数。

到这里,协同过滤就成功转化成了一个优化问题。由于变量xu和yi耦合到一起,这个问题并不好求解,所以我们引入了ALS,也就是说我们可以先固定Y(例如随机初始化X),然后利用公式(2)先求解X,然后固定X,再求解Y,如此交替往复直至收敛,即所谓的交替最小二乘法求解法。

具体求解方法说明如下:

  • 先固定Y,  将损失函数L(X,Y)对xu求偏导,并令导数=0,得到:

deltaxu

  • 同理固定X,可得:

deltayi其中ru(1×n)是R的第u行,ri(1×m)是R的第i列, I是k×k的单位矩阵。

  • 迭代步骤:首先随机初始化Y,利用公式(3)更新得到X,  然后利用公式(4)更新Y,  直到均方根误差变RMSE化很小或者到达最大迭代次数。

gif.latex

ALS-WR

上文提到的模型适用于解决有明确评分矩阵的应用场景,然而很多情况下,用户没有明确反馈对商品的偏好,也就是没有直接打分,我们只能通过用户的某些行为来推断他对商品的偏好。比如,在电视节目推荐的问题中,对电视节目收看的次数或者时长,这时我们可以推测次数越多,看得时间越长,用户的偏好程度越高,但是对于没有收看的节目,可能是由于用户不知道有该节目,或者没有途径获取该节目,我们不能确定的推测用户不喜欢该节目。ALS-WR通过置信度权重来解决这些问题:对于更确信用户偏好的项赋以较大的权重,对于没有反馈的项,赋以较小的权重。ALS-WR模型的形式化说明如下:

  • ALS-WR的目标函数:

gif.latex其中α是置信度系数。

  • 求解方式还是最小二乘法:

gif.latex其中Cu是n×n的对角矩阵,Ci是m×m的对角矩阵;Cuii  = cui,  Ciii  = cii。

具体实现待补充。

本文参考:

[1] https://github.com/ceys/jdml/wiki/ALS

[2] http://mt.sohu.com/20150507/n412633357.shtml

 

【转载请注明:纯净的天空出品: http://www.fuqingchuan.com/2015/03/812.html

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【项目介绍】 基于Django协同过滤spark-als的电影推荐系统源码+项目使用说明+设计报告.zip 该资源内项目代码都是经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶, 或者实际项目借鉴参考! 当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。如果基础还行,也可在此代码基础上进行修改,以实现其他功能。 说明 1. 新手建议结合pycharm使用,https://www.jetbrains.com/pycharm/,下载专业版试用30天。 2. 注册普通用户通过web界面来设置,创建创建用户通过creeatsuperuser创建。下文有详细命令 3. 导入电影信息通过insert_movies_script.py来操作 (会删除已有的所有信息!) 4. 前端展示 浏览最多,评分最多,收藏最多,写的比较直白,你可以改的委婉点: 最热电影,火爆排行...之类的。每种有10条。 我猜你喜欢为基于用户推荐,item推荐为基于项目推荐。两种推荐思路下文有介绍 系统采用的技术 前端: bootstrap3 css 框架 后端: django 2.2.1 + sqlite3数据库 (MVC框架) 数据: python异步爬虫从豆瓣top250抓取数据,保存到本地csv文件中 主要功能: 录入图书信息,用户打分,电影标签分类,电影推荐,电影分享,电影收藏,后台管理系统。 整体采用MVC架构,前端页面通过django template模板来实现,实现了模板的复用功能。同时前端页面的组织结构较为清晰。 推荐算法思路 通过协调过滤计算和其他用户的距离,然后进行筛选。如果用户数量不足,推荐数目不够15条,就会自动从 所有未打分的电影中按照浏览数降序选一部分填充进去。 基于用户的推荐 1. 用户需要给电影打分。通过用户已打分的部分来计算相似度,如果用户未打分,或者没有其他用户,则按照浏览数降序返回。 2. 通过pearson算法来计算用户之间的距离,找到距离最近的N个用户。将这些用户中已打分的电影(且要推荐的用户未看过的部分)返回。 基于item的推荐 1. 计算物品相似度矩阵: https://www.jianshu.com/p/27b1c035b693 2. 遍历当前用户已打分的item,计算和未打分的item的相似距离。 3. 对相似距离进行排序 返回 主要实现的功能 1. 登录注册页面 2. 基于协同过滤的电影的分类,排序,搜索,打分,排序功能。 3. 基于协同过滤的周推荐和月推荐 4. 观影分享会等活动功能,用户报名功能 (需要额外添加) 5. 发帖留言论坛功能 (要额外添加) 6. 基于sparkALS算法 (要额外添加) 7. Mysql适配 8. movielens数据集适配 fixed 1. 首页导航栏链接错误 2. 首页面为空 3. 登录注册页面 4. 推荐跳转登录 5. 周推荐用户没有评分时随机推荐 6. 按照收藏数量排序 7. 重新设计了 action 和UserAction model,拆分出了UserAction 电影模型 1. 浏览量 每次刷新页面的浏览数 2. 收藏量 user manytomany field 每个用户收藏一次 3. 评分 rate 每个用户评分一次 4. 在电影下面的评论加点赞功能 安装运行方法 安装依赖 1. 将项目导入pycharm, 在pycharm配置python解释器,3.7及以下都可以。可以通过conda或者其他的虚拟环境来安装 2. 打开终端 输入pip install -r requirements.txt 若提示无pip。去下载get-pip.py 运行python get-pip.py 3. 在pip安装过程中如果报错C++ 14依赖问题。则安装c++依赖工具。找不到找我要。如果安装速度过慢,请更换国内镜像https://blog.csdn.net/chenghuikai/article/details/55258957 4. 安装成功后,进入运行阶段 运行 1. 运行服务器: python manage.py runserver 2. 如果无数据,运行项目根目录下的数据迁移脚本 populate开头。 3. python manage.py createsuperuser 创建超级管理员, (密码输入时终端暂时看不到) 4. 进入后台: 127.0.0.1:8000/admin
协同过滤是一种基于用户行为的推荐算法,它通过对用户历史行为数据进行分析,找到用户之间的相似性和物品之间的相似性,从而推荐用户可能感兴趣的物品。Spark Mllib中提供了两种协同过滤算法:基于用户的协同过滤和基于物品的协同过滤。其中,基于用户的协同过滤是指通过计算用户之间的相似度,来推荐给用户那些和他们相似的用户喜欢的物品;而基于物品的协同过滤则是通过计算物品之间的相似度,来推荐和用户喜欢的物品相似的物品。 在Spark Mllib中,协同过滤算法的实现主要分为两个步骤:模型训练和推荐。模型训练的目的是学习用户和物品的隐含特征向量,而推荐则是根据学习到的特征向量,预测用户对物品的评分并进行推荐。 LS(Least Squares)和ALS(Alternating Least Squares)都是协同过滤算法中的常用优化方法。LS方法通过最小化预测评分和实际评分之间的均方误差来学习用户和物品的隐含特征向量;而ALS方法则是把学习用户和物品的隐含特征向量的过程转化成一个交替最小二乘优化问题。具体地说,ALS方法先固定物品的隐含特征向量,最小化预测评分和实际评分之间的均方误差,得到用户的隐含特征向量;然后再固定用户的隐含特征向量,最小化预测评分和实际评分之间的均方误差,得到物品的隐含特征向量。这个过程不断交替进行,直到收敛为止。 在ALS算法中,还有一些优化过程可以提高算法的性能,比如使用正则化项来防止过拟合、使用随机梯度下降来加快学习速度等。 隐式反馈是指用户行为数据中的隐含信息,比如用户浏览过哪些物品,用户购买过哪些物品等。ALS-WR(Alternating Least Squares with Weighted-λ-Regularization)算法则是在ALS算法的基础上,引入了隐式反馈的权重信息,从而进一步提高了推荐的准确性。具体地说,ALS-WR算法中,用户对某个物品的评分不再是0或1,而是一个介于0和1之间的概率值,通过对这些概率值进行加权,可以更好地反映用户对物品的偏好程度。同时,算法中还使用了正则化项来防止过拟合。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值