Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

 Generative Adversarial User Model for Reinforcement Learning Based Recommendation System  ICML 2019

摘要:

本文是推荐系统和强化学习结合起来的应用:

主要是2点:

1

我们开发了一个生成式的对抗学习(GAN)公式来模拟用户的行为动态,并恢复她的奖励功能。通过联合最小二乘优化算法,同时对这两个分量进行估计。我们的公式的好处是:(i)可以得到一个更具预测性的用户模型,并且以与用户模型一致的方式学习奖励函数;(二)习得奖励可以使以后的强化学习以更有原则的方式进行,而不是依靠手工设计的奖励;(二)学习用户模型使我们能够对新用户进行基于模型的RL和在线适配,从而达到更好的效果。

以该模型为仿真环境,开发了级联DQN算法,得到了组合推荐策略。action-value函数的级联设计允许我们从大量候选项中找到要显示的项的最佳子集,这些候选项的时间复杂度仅与候选项的数量成线性关系。

本模型的强学学习部分

 

环境:将对应一个已登录的在线用户,该用户可以单击推荐系统在每个页面视图(或交互)中显示的k个项目中的一个

状态:与用户的历史单击顺序相对应

动作:将对应于推荐方从中选择的k个项目的子集,以显示给用户。Itk是指它的k个元素的所有子集的集合。它是可用项目推荐的子集在时间t在所有物品。

 

我们认为点击项和用户的输入状态的回报函数r (s t),在用户点击项行动t和用户年代历史是捕捉到她的状态s t (non-click被当作一个特殊的项目/动作)。假设在会话t中,推荐系统向用户展示了一组k项,分别为= {a1,···,ak}和它们的相关特性{f t1,···,f t k}。她将采取行动的t根据战略φ可以最大化期望的奖励。更特别的是,该策略是一组候选操作At上的概率分布,是下面优化问题的结果

 

参数

关于 

点击项目的特征表示

h是embedding函数

当前的状态表示

题,本文提出了一种新的基于模型的 RL 框架来用于推荐系统,该框架用统一的极小化极大(minimax)框架学习用户行为模型和相关的奖励函数,然后再用这个模型学习 RL 策略。

 

生成对抗训练

在实践中,用户奖励函数 γ(s^t, a^t) 和行为模型 φ(s^t,A^t) 都是未知的,需要评估数据得到。行为模型 φ试图模仿真实用户的行为序列,该用户采取行为以最大化奖励函数 γ。与生成对抗网络相似:(i) φ 作为生成器,会根据用户的历史来生成她的下一个行为;(ii) γ 作为判别器,试图将行为模型 φ 生成的行为与用户的实际行为区分开来。因此,受 GAN 框架的启发,研究者通过极小化极大方法同时评估了 φ 和 γ。

更确切地说,给定某个用户的 T 个观测到的行为的轨迹 {a^1_true, a^2_true, . . . , a^T_true} 及相应的所点击物品的特征 {f^1_∗ , f^2_∗ , . . . , f^T_∗ },研究者通过求解下面的极小化极大优化方法共同学习到用户的行为模型和奖励函数:

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值