论文笔记6:Increasing the Action Gap: New Operators for Reinforcement Learning

参考文献:New Operators for Reinforcement Learning

同名知乎:uuummmmiiii

这篇文章实在是式子多,整个看懵,网上目前没啥人看过这篇,论文有两部分,我挣扎了一下看了第一部分,所以第二部分具体作者创新了什么,做了什么相关推导我也不知道,哭泣。

如有错误还请指出,本人小白,希望帮助更多的人,一同进步。

 

论文分为两部分:前部分:作者介绍新提出的新算子。

后半部分:为这个算子可以保持最优性推导出了充分条件。


创新点:提出了最优保存算子(optimality-preserving),称为consistent Bellman operator

改进:在Q函数更新公式,加入此算子。公式如下:

原Q函数更新公式:

改进原因:Q值发生小扰动会导致错误识别最佳动作,原来的Q函数更新方式不稳定(因为Q*的选取是选策略π)

带来益处:1、可以增加action gap(the value difference between optimal and second best action),缓解近似和估计误差对选择动作(贪婪策略)的影响。

2、可以将这个算子用于进行对连续状态的离散化。

3、 可以提升在一些需要运作在很好的time scale下的游戏(个人理解为

是一种需要即时性战略的游戏,并非棋盘类和传统电子游戏的那种回合制的游戏:作者举出三个例子,视频游戏、实时市场、机器人游戏)


Abstract

本文提出了一种在Q函数中的最优保留算子,我们成为 the consistent Bellman operator,这里融合了局部策略一致性的概念。我们

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值