Youtube的value-based强化学习推荐系统

本文探讨YouTube在2019年的价值基强化学习推荐系统论文,重点介绍了SLATEQ方法如何分解Q函数以处理大规模推荐列表。通过离线和在线实验,展示在用户参与度上的显著提升,证明强化学习在推荐系统中的应用潜力。
摘要由CSDN通过智能技术生成

嘿,记得给“机器学习与推荐算法”添加星标


作者:阳光明媚

| 单位:华东师范大学

研究方向:推荐系统、强化学习

本文介绍Youtube在2019年放出的两篇强化学习推荐系统中基于value-based的一篇,论文标题:SLATEQ: A Tractable Decomposition for Reinforcement Learning with Recommendation Sets (IJCAI 2019)

原文地址:

https://arxiv.org/pdf/1905.12767.pdf

https://www.ijcai.org/Proceedings/2019/0360.pdf

强化学习推荐系统快速入门

强化学习算法可以大体分为value-based和policy-based,value-based方法在训练阶段的学习目标是学到一个 函数,知道当前状态 和动作 之后,这个函数可以输出 状态下 这个动作所能带来的期望的长期价值,记为Q值,或者状态动作值函数;在决策阶段,在一个新的状态 下,我们可以根据训练好的 函数,尝试可选动作集合 中的每一个动作 ,最终采取Q值最大的动作,这样就可以带来最大的长期收益。本文主要讨论value-based的强化学习推荐系统。

在每次采取动作

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值