A Distributional Perspective on Reinforcement Learning

西西弗的小蚂蚁

于 2022-09-05 17:34:06 发布

阅读量436

点赞数

分类专栏：强化学习 # 强化学习应用论文 # 强化学习经典文献文章标签：人工智能机器学习深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zj_18706809267/article/details/126708601

版权

强化学习应用论文同时被 3 个专栏收录

30 篇文章 6 订阅

订阅专栏

22 篇文章 1 订阅

订阅专栏

强化学习经典文献

21 篇文章 4 订阅

订阅专栏

本文论证了值分布的基本重要性:强化学习智能体收到的随机回报的分布。这与强化学习的常见方法相反，后者对这种回报或价值的期望进行建模。尽管已经建立了研究价值分布的文献体系，但迄今为止，它一直被用于特定目的，如实施风险意识行为。我们从策略评估和控制设置的理论结果开始，暴露了后者中的显著分布不稳定性。然后从分布的角度设计了一种新的算法，该算法将Bellman方程应用于近似值分布的学习。使用Arcade学习环境中的一套游戏来评估该算法。获得了最先进的结果和轶事证据，证明了值分布在近似强化学习中的重要性。结合理论和经验证据，强调了值分布在近似环境下影响学习的方式。

The Distributional Bellman Operators

4. Approximate Distributional Learning

在本节中，我们提出一种基于分布式Bellman最优算子的算法。特别地，这需要选择一个近似分布。虽然之前也考虑过高斯分布(Morimura等人，2010a;Tamar et al.， 2016)，据我们所知，我们是第一个使用丰富的参数分布类。

4.1. Parametric Distribution

阅读者总结：这篇论文想法比较直接，但是理解起来相对不是很容易，还需要阅读

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Distributional Perspective on Reinforcement Learning

获得了最先进的结果和轶事证据，证明了值分布在近似强化学习中的重要性。结合理论和经验证据，强调了值分布在近似环境下影响学习的方式。特别地，这需要选择一个近似分布。Tamar et al.， 2016)，据我们所知，我们是第一个使用丰富的参数分布类。这与强化学习的常见方法相反，后者对这种回报或价值的期望进行建模。尽管已经建立了研究价值分布的文献体系，但迄今为止，它一直被用于特定目的，如实施风险意识行为。然后从分布的角度设计了一种新的算法，该算法将Bellman方程应用于近似值分布的学习。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。