嘿,记得给“机器学习与推荐算法”添加星标
| 作者:阳光明媚
| 单位:华东师范大学
| 研究方向:推荐系统、强化学习
本文介绍Youtube在2019年放出的两篇强化学习推荐系统中基于value-based的一篇,论文标题:SLATEQ: A Tractable Decomposition for Reinforcement Learning with Recommendation Sets (IJCAI 2019)
原文地址:
https://arxiv.org/pdf/1905.12767.pdf
https://www.ijcai.org/Proceedings/2019/0360.pdf
强化学习推荐系统快速入门
强化学习算法可以大体分为value-based和policy-based,value-based方法在训练阶段的学习目标是学到一个 函数,知道当前状态 和动作 之后,这个函数可以输出 状态下 这个动作所能带来的期望的长期价值,记为Q值,或者状态动作值函数;在决策阶段,在一个新的状态 下,我们可以根据训练好的 函数,尝试可选动作集合 中的每一个动作 ,最终采取Q值最大的动作,这样就可以带来最大的长期收益。本文主要讨论value-based的强化学习推荐系统。
在每次采取动作