参考文献:New Operators for Reinforcement Learning
同名知乎:uuummmmiiii
这篇文章实在是式子多,整个看懵,网上目前没啥人看过这篇,论文有两部分,我挣扎了一下看了第一部分,所以第二部分具体作者创新了什么,做了什么相关推导我也不知道,哭泣。
如有错误还请指出,本人小白,希望帮助更多的人,一同进步。
论文分为两部分:前部分:作者介绍新提出的新算子。
后半部分:为这个算子可以保持最优性推导出了充分条件。
创新点:提出了最优保存算子(optimality-preserving),称为consistent Bellman operator
改进:在Q函数更新公式,加入此算子。公式如下:
原Q函数更新公式:
改进原因:Q值发生小扰动会导致错误识别最佳动作,原来的Q函数更新方式不稳定(因为Q*的选取是选策略π)
带来益处:1、可以增加action gap(the value difference between optimal and second best action),缓解近似和估计误差对选择动作(贪婪策略)的影响。
2、可以将这个算子用于进行对连续状态的离散化。
3、 可以提升在一些需要运作在很好的time scale下的游戏(个人理解为
是一种需要即时性战略的游戏,并非棋盘类和传统电子游戏的那种回合制的游戏:作者举出三个例子,视频游戏、实时市场、机器人游戏)
Abstract
本文提出了一种在Q函数中的最优保留算子,我们成为 the consistent Bellman operator,这里融合了局部策略一致性的概念。我们