上次在用回归模型研究豆瓣短评top500的代表性时,爬了一份用户影视评分数据,今天结合协同过滤算法,做一个简易的“推荐系统”,将特定商品——影视作品推荐给潜在感兴趣的参与打分的用户。
数据:包含24594条记录,涉及54部影视作品和19317位用户
算法与R语言包:协同过滤算法、recommenderlab包
具体步骤:数据预处理(主要是转化为稀疏矩阵)——推荐建模(topN;评分状况)+ 结果分析
- 数据预处理
recommenderlab的建模函数对数据格式有要求,必须为realRatingMatrix,且矩阵太稀疏的话,由信息不足导致的推荐建模效果会很差。
因此预处理主要有两点:(1)删去评价次数少于6的用户;(2)转化为稀疏矩阵
- 推荐建模
从出发点来看:主要分为基于用户相似性、基于商品相似性、最受欢迎推荐、随机推荐
从结果来看:主要是topN(即输出用户最可能感兴趣的N部作品)和评分模型ÿ