推荐系统评估

最新推荐文章于 2023-12-27 18:01:13 发布

あずにゃん

最新推荐文章于 2023-12-27 18:01:13 发布

阅读量359

点赞数

分类专栏：人工智能个性化推荐系统文章标签：人工智能推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zimiao552147572/article/details/106738799

版权

人工智能同时被 2 个专栏收录

503 篇文章 241 订阅

订阅专栏

个性化推荐系统

67 篇文章 6 订阅

订阅专栏

日萌社

人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战（不定时更新）

1.5 推荐系统评估

学习目标

了解推荐系统的常用评估指标
了解推荐系统的评估方法

1 推荐系统的评估指标

好的推荐系统可以实现用户, 服务提供方, 内容提供方的共赢

评估数据来源显示反馈和隐式反馈

显式反馈隐式反馈
例子电影/书籍评分是否喜欢这个推荐播放/点击评论下载购买
准确性高低
数量少多
获取成本高低
常用评估指标

• 准确性 • 信任度 • 满意度 • 实时性 • 覆盖率 • 鲁棒性 • 多样性 • 可扩展性 • 新颖性 • 商业⽬标 • 惊喜度 • ⽤户留存
- 准确性 (理论角度) Netflix 美国录像带租赁
  - 评分预测
    - RMSE MAE
  - topN推荐
    - 召回率精准率
- 准确性 (业务角度)

- 覆盖度
  - 信息熵对于推荐越大越好
  - 覆盖率
- 多样性&新颖性&惊喜性
  - 多样性：推荐列表中两两物品的不相似性。（相似性如何度量？
  - 新颖性：未曾关注的类别、作者；推荐结果的平均流⾏度
  - 惊喜性：历史不相似（惊）但很满意（喜）
  - 往往需要牺牲准确性
  - 使⽤历史⾏为预测⽤户对某个物品的喜爱程度
  - 系统过度强调实时性
- Exploitation & Exploration 探索与利用问题
  - Exploitation(开发利用)：选择现在可能最佳的⽅案
  - Exploration(探测搜索)：选择现在不确定的⼀些⽅案，但未来可能会有⾼收益的⽅案
  - 在做两类决策的过程中，不断更新对所有决策的不确定性的认知，优化长期的⽬标
- EE问题实践
  - 兴趣扩展: 相似话题, 搭配推荐
  - 人群算法: userCF 用户聚类
  - 平衡个性化推荐和热门推荐比例
  - 随机丢弃用户行为历史
  - 随机扰动模型参数
- EE可能带来的问题
  - 探索伤害用户体验, 可能导致用户流失
  - 探索带来的长期收益(留存率)评估周期长, KPI压力大
  - 如何平衡实时兴趣和长期兴趣
  - 如何平衡短期产品体验和长期系统生态
  - 如何平衡大众口味和小众需求

2 推荐系统评估方法

评估方法
- 问卷调查: 成本高
- 离线评估:
  - 只能在用户看到过的候选集上做评估, 且跟线上真实效果存在偏差
  - 只能评估少数指标
  - 速度快, 不损害用户体验
- 在线评估: 灰度发布 & A/B测试 50% 全量上线
- 实践: 离线评估和在线评估结合, 定期做问卷调查

あずにゃん

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

あずにゃん 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。