推荐系统评估

日萌社

人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)


1.5 推荐系统评估

学习目标

  • 了解推荐系统的常用评估指标
  • 了解推荐系统的评估方法

1 推荐系统的评估指标

  • 好的推荐系统可以实现用户, 服务提供方, 内容提供方的共赢

  • 评估数据来源显示反馈和隐式反馈

    显式反馈隐式反馈
    例子电影/书籍评分 是否喜欢这个推荐播放/点击 评论 下载 购买
    准确性
    数量
    获取成本
  • 常用评估指标

    • 准确性 • 信任度 • 满意度 • 实时性 • 覆盖率 • 鲁棒性 • 多样性 • 可扩展性 • 新颖性 • 商业⽬标 • 惊喜度 • ⽤户留存

    • 准确性 (理论角度) Netflix 美国录像带租赁
      • 评分预测
        • RMSE MAE
      • topN推荐
        • 召回率 精准率
    • 准确性 (业务角度)

    • 覆盖度
      • 信息熵 对于推荐越大越好
      • 覆盖率
    • 多样性&新颖性&惊喜性
      • 多样性:推荐列表中两两物品的不相似性。(相似性如何度量?
      • 新颖性:未曾关注的类别、作者;推荐结果的平均流⾏度
      • 惊喜性:历史不相似(惊)但很满意(喜)
      • 往往需要牺牲准确性
      • 使⽤历史⾏为预测⽤户对某个物品的喜爱程度
      • 系统过度强调实时性
    • Exploitation & Exploration 探索与利用问题
      • Exploitation(开发 利用):选择现在可能最佳的⽅案
      • Exploration(探测 搜索):选择现在不确定的⼀些⽅案,但未来可能会有⾼收益的⽅案
      • 在做两类决策的过程中,不断更新对所有决策的不确定性的认知,优化 长期的⽬标
    • EE问题实践
      • 兴趣扩展: 相似话题, 搭配推荐
      • 人群算法: userCF 用户聚类
      • 平衡个性化推荐和热门推荐比例
      • 随机丢弃用户行为历史
      • 随机扰动模型参数
    • EE可能带来的问题
      • 探索伤害用户体验, 可能导致用户流失
      • 探索带来的长期收益(留存率)评估周期长, KPI压力大
      • 如何平衡实时兴趣和长期兴趣
      • 如何平衡短期产品体验和长期系统生态
      • 如何平衡大众口味和小众需求

2 推荐系统评估方法

  • 评估方法
    • 问卷调查: 成本高
    • 离线评估:
      • 只能在用户看到过的候选集上做评估, 且跟线上真实效果存在偏差
      • 只能评估少数指标
      • 速度快, 不损害用户体验
    • 在线评估: 灰度发布 & A/B测试 50% 全量上线
    • 实践: 离线评估和在线评估结合, 定期做问卷调查

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

あずにゃん

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值