Top-K Off-Policy Correction for a REINFORCE Recommender System

糖葫芦君

已于 2022-06-07 11:24:46 修改

阅读量488

点赞数

分类专栏：强化学习多样化排序文章标签： rnn 深度学习人工智能

于 2022-06-07 11:23:54 首次发布

本文链接：https://blog.csdn.net/yinyu19950811/article/details/125158462

版权

强化学习同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

多样化排序

2 篇文章 0 订阅

订阅专栏

Top-K Off-Policy Correction for a REINFORCE Recommender System

创新点

具体方法

1. 解决on-policy与off-policy中数据有偏的问题

采用 importance sampling来对 $\pi$ 进行加权
在这里插入图片描述
得到off-policy的gradient estimator后：

虽然偏差没有了，但是方差很大，为了减少方差，只考虑0-t时刻的，再做一阶近似：

最终得到一个有偏但是方差更小的estimator：

2. Parametrising the policy 𝜋𝜃

利用一个rnn网络来建模状态变化：
在这里插入图片描述

在这里插入图片描述
根据从behavior policy $\beta$ 观测得到的trajctory ,根据rnn网络生成用户状态，得到 $\pi(a|s)$ ，进而计算policy gradient来更新policy.

3. Estimating the behavior policy 𝛽

off-policy 策略校正的一个困难是日和获得行为策略 $\beta$ ？
在这里插入图片描述
对于收集的每个状态-动作对 (𝑠,𝑎)，使用另一个 softmax 的混合policy 来估计选择该动作的概率𝛽^𝜃′(𝑎|𝑠)。如图 1 所示，从主策略重用 RNN 模型生成的用户状态𝑠，并使用另一个 softmax 层对混合策略进行建模。为了防止行为干扰主策略的用户状态，阻止它的梯度回流到 RNN。

尽管 $\pi(a|s)$ 与 $\beta$ 共享了大量的参数，但是他们主要有两个区别：

main policy $\pi(a|s)$ 会使用long-term reward进行训练，而 behavior policy 只基于 state-action pairs进行训练；
main policy head 𝜋𝜃 is trained using only items on the trajectory with non-zero reward 3, the behavior policy 𝛽𝜃′ is trained using all of the items on the trajectory to avoid introducing bias in the 𝛽 estimate.

4. TOP-K

每次选择K个action 在这里插入图片描述

$\alpha_{\theta}(a|s) = 1- (1-\pi_{\theta}(a|s))^K$
梯度更新可以被简化为：

通过替代 $\pi$ 为 $\alpha$ ：

Top-K policy相比原先的policy增加了一项：

该方法具有如下性质：

- List item
起到的作用就是：当期望的item在 softmax 策略𝜋𝜃 (·|𝑠) 中的质量较小时，top-𝐾 校正比标准校正更积极地推高其可能性。一旦 softmax 策略𝜋𝜃 (·|𝑠) 对期望的item 施加了合理的质量（以确保它可能出现在顶部-𝐾），然后校正会将梯度归零并且不再试图推高其可能性 . 这反过来允许其他可能感兴趣的item 在 softmax 策略中占据一些分量。

5. 降低方差

Weight Capping
Normalized Importance Sampling (NIS)
TRPO:加入一个正则化项

参考

https://zhuanlan.zhihu.com/p/445564398

糖葫芦君

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Top-K Off-Policy Correction for a REINFORCE Recommender System

policy-gradient应用到推荐领域：主要有3个创新点：1. 校正off-policy与on-policy之间的偏差2. top-k推荐而不是只推荐一个3. 加入探索方式
复制链接

扫一扫