自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 离线强化学习系列3(算法篇): AWAC算法详解与实现

[更新记录]文章目录1、问题及背景2、困难与挑战2.1 效率2.1 Q值过估计问题3、AWAC3.1 公式3.2 伪代码4、实验结果参考文献论文信息:AWAC: Accelerating Online Reinforcement Learning with Offline Datasets[Code]本文由UC Berkeley的Sergey Levine团队(一作是Ashvin Nair和Abhishek Gupta)于2020年提出,投稿到ICLR2021上,但最终被拒稿。文章的思路和BE..

2022-04-24 22:00:47 1313

原创 离线强化学习系列3(算法篇): AWR(Advantage-Weighted Regression)算法详解与实现

文章目录1、预备知识1.1 累计奖励1.2 [RWR](https://is.mpg.de/fileadmin/user_upload/files/publications/ICML2007-Peters_4493[0].pdf)2、AWR2.1 策略评估2.2 伪代码2.3 off policy2.3.1 样本分布2.3.2 策略提升2.3.3 价值函数3、实验参考文献论文信息:Xue Bin Peng, Aviral Kumar, Grace Zhang, Sergey Levine: “Advan.

2022-04-17 22:39:42 666

原创 离线强化学习系列3(算法篇): 值函数约束-CQL算法详解与实现

[更新记录]论文信息:Conservative Q-Learning for Offline Reinforcement Learning][Code]本文由UC Berkeley的Sergey Levine团队(一作是Aviral Kumar)于2020年提出,并发表在NIPS2020会议上。论文的主要思想是在QQQ值基础上增加一个regularizer,学习一个保守的Q函数,作者从理论上证明了CQL可以产生一个当前策略的真实值下界,并且是可以进行策略评估和策略提升的过程。从代码的角度上来说,本文.

2022-04-10 18:46:56 1010

原创 离线强化学习系列3(算法篇)策略约束-BCQ详解与实现

【更新日志】论文信息:Off-Policy Deep Reinforcement Learning without Exploration, [Github]本文主要介绍的是连续空间状态下的策略约束的BCQ算法, 作者首先就offline RL中容易出现extrapolation error现象进行了解释,然后用数学证明了在某些条件下这种误差是可以消除的,最后引入了BCQ算法,通过batch constrain的限制来避免这样的误差,实验证明BCQ算法的效果很好。

2022-04-02 18:03:31 2174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除