推荐系统的挑战

推荐系统的挑战

推荐系统简介

随着互联网2.0的发展,用户不再是数据的消费者,满足于关键词的搜索和在线浏览,而成为了数据的生产者。数据逐渐由专业机构的生产转向由用户的生产,数据量也日益剧增,信息过载油然而生,具体的表现是一是信息过滤即如何从海量的信息中找到自己需要的信息,二是个性化即如何确保找到的信息与用户的偏好是匹配的。
推荐系统能够在用户没有明确给出信息需求的情况下主动的给用户传递个性化感兴趣的信息。作为信息检索(IR)领域的一个重要分支近些年来发展极快,从传统的协同过滤算法到后来的因子分解机及其变种,再到后来基于深度学习的推荐算法等等,该领域的进展如火如荼,本文主要介绍一下推荐系统领域的一些挑战

数据端的挑战

1、数据稀疏与冷启动
数据稀疏是指用户往往在很小比例上的物品有反馈,导致user-item的矩阵非常稀疏,稀疏度通常在99%以上,这使得推荐系统很难有效地学习用户偏好,也就无法有效给用户推荐物品。
冷启动是数据稀疏的一个极端,指(新)用户对(新)物品的互动很少,系统无法学习到用户的真实偏好,无法有效推荐物品。
2、数据的可靠性
推荐系统是从用户反馈(显式或隐式)数据中学习用户偏好进行预测的,这种方式有个大前提是假设用户反馈的数据均为真实有效地。但是真实的情况却并非如此,有部分用户出于某种目的恶意的攻击推荐系统做出一些假的动作,误导推荐系统。这部分人也就是常见的“水军”
3、数据的多样性
推荐系统目前主要从用户的评分数据、点赞和评论等信息中学习偏好,诸如观看(购买)次数和顺序、地理位置信息等隐式的反馈并没有充分利用起来。
4、数据中的语义问题
用户反馈数据中有些内容是不明确的,如一词多义,用户评论中的一些“反语”。此外不同用户的相同评分代表的不同的喜欢程度,如对有些用户4星就是很喜欢了,但是对于其他的一些用户4星可能只是一般。

模型端的挑战

1、模型的可扩展性
有些模型如协同过滤算法,该算法原理比较简单也比较有效,但是由于其计算的复杂度导致其不能应用在大规模数据集上。
2、模型中的学习方法
学习速率和步长的选择会影响到模型训练和收敛速度,过大/过小的学习速率和步长容易陷入局部最优解。
3、采样策略
常用的模型训练需要的是正态分布的数据,但是常见的推荐系统数据集的数据分布式非正态的,正样本(评分较高)居多,主要是由于用户更倾向于反馈自己喜欢的东西。设计负采样策略也是提高推荐准确性的重要手段
4、模型的稳健性
通常都是假设用户的数据是可信的,即没有用户作弊,但是现实情况会有一些用户恶意攻击系统,如何设计出较强稳健性的模型也是要考虑的问题。

评估端的挑战

1、准确性
准确性是评估推荐性能的重要指标,即推荐结果是不是用户真正感兴趣的物品,有些模型在离线评估时表现良好,但是线上测试表现较差,如果缩小线上评估和线下评估(学术和工业界)的差异也是一个重要的研究方向
2、可重现性
现有的推荐算法众多纷纭,但有些算法提出之初没有开源且文献中表达不够细致,真实可复现的难度较大。
3、多样性和新颖性
仅给用户推荐其交互过的物品无法最大化用户的满意度,适当的多样性和新颖性可以满足用户的猎奇心理,提高用户对推荐系统的满意度。
4、可解释性
以上都是在评估推荐系统的准确性,但是推荐模型就像一个黑盒,用户是难以理解的,如何给用户一个合理的推荐理由来介绍为何推荐该商品,可以提高用户的满意度和对系统平台的信任度。

参考

郭贵冰 - 推荐系统进展方法与技术

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值