铁木真_223-CSDN博客

原创离线强化学习系列3(算法篇): AWAC算法详解与实现

[更新记录]文章目录1、问题及背景2、困难与挑战2.1 效率2.1 Q值过估计问题3、AWAC3.1 公式3.2 伪代码4、实验结果参考文献论文信息：AWAC: Accelerating Online Reinforcement Learning with Offline Datasets[Code]本文由UC Berkeley的Sergey Levine团队(一作是Ashvin Nair和Abhishek Gupta)于2020年提出，投稿到ICLR2021上，但最终被拒稿。文章的思路和BE..

2022-04-24 22:00:47 1540

原创离线强化学习系列3(算法篇): AWR(Advantage-Weighted Regression)算法详解与实现

文章目录1、预备知识1.1 累计奖励1.2 [RWR](https://is.mpg.de/fileadmin/user_upload/files/publications/ICML2007-Peters_4493[0].pdf)2、AWR2.1 策略评估2.2 伪代码2.3 off policy2.3.1 样本分布2.3.2 策略提升2.3.3 价值函数3、实验参考文献论文信息：Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine: “Advan.

2022-04-17 22:39:42 939

原创离线强化学习系列3(算法篇): 值函数约束-CQL算法详解与实现

[更新记录]论文信息：Conservative Q-Learning for Offline Reinforcement Learning][Code]本文由UC Berkeley的Sergey Levine团队(一作是Aviral Kumar)于2020年提出，并发表在NIPS2020会议上。论文的主要思想是在QQQ值基础上增加一个regularizer，学习一个保守的Q函数，作者从理论上证明了CQL可以产生一个当前策略的真实值下界，并且是可以进行策略评估和策略提升的过程。从代码的角度上来说，本文.

2022-04-10 18:46:56 1469

原创离线强化学习系列3（算法篇）策略约束-BCQ详解与实现

【更新日志】论文信息：Off-Policy Deep Reinforcement Learning without Exploration, [Github]本文主要介绍的是连续空间状态下的策略约束的BCQ算法，作者首先就offline RL中容易出现extrapolation error现象进行了解释，然后用数学证明了在某些条件下这种误差是可以消除的，最后引入了BCQ算法，通过batch constrain的限制来避免这样的误差，实验证明BCQ算法的效果很好。

2022-04-02 18:03:31 2577