强化学习超进化：经典问题 30 年后惊现闭式解；TensorFlow2 强化学习教程 GitHub 代码大公开

最新推荐文章于 2024-06-21 16:07:05 发布

Zhiqing Xiao

最新推荐文章于 2024-06-21 16:07:05 发布

阅读量586

点赞数

分类专栏：强化学习文章标签：强化学习 TensorFlow TensorFlow 2 Gym OpenAI-Gym

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhiqingxiao/article/details/102870708

版权

30年后，强化学习经典控制问题MountainCar-v0出现闭式解，仅依赖简单不等式。同时，配套TensorFlow2的强化学习教程《强化学习：原理与Python实现》公开，融合多种经典教程，提供完备理论与实践代码，成为全球首本TensorFlow 2强化学习教程。

摘要由CSDN通过智能技术生成

强化学习经典控制问题 30 年后惊现闭式解

MountainCar-v0 是 Andrew Moore 在 1990 年提出的控制问题，提出后受到强化学习界的广泛关注，并收录到强化学习影响力最大的环境库之一 Gym 中，成为大多数强化学习教程中必用的环境。
在这里插入图片描述
图1 经典控制问题MountainCar-v0（图片来源：https://gym.openai.com/envs/MountainCar-v0/）

2019 年，OpenAI Gym Leaderboard 上出现了对该环境求解的突破性进展：上面显示了一个仅用很少的回合就可以完成学习的强化学习代码，又给出了一个不需要学习的闭式解。

更令人惊奇的是，这个闭式解只依赖于一个不等式，并且这个不等式只用到四次多项式。他在满足这个不等式时采用一种动作，不满足时采用另外一种动作，这样竟然就能解决这个问题。

这两种解法目前位于 OpenAI Gym 的排行榜的前两名。

第一名就是用不等式的闭式解，第二名则用了强化学习中的资格迹算法。

第二名解法用了75个回合数据就解决了问题，数据利用率是排名第三的算法（用了341个回合数据）的4.5倍。
在这里插入图片描述
图2 MountainCar-v0排行榜页面（图片来源：h

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强化学习超进化：经典问题 30 年后惊现闭式解；TensorFlow2 强化学习教程 GitHub 代码大公开

强化学习经典控制问题 30 年后惊现闭式解MountainCar-v0 是 Andrew Moore 在 1990 年提出的控制问题，提出后受到强化学习界的广泛关注，并收录到强化学习影响力最大的环境库之一 Gym 中，成为大多数强化学习教程中必用的环境。图1 经典控制问题MountainCar-v0（图片来源：https://gym.openai.com/envs/MountainCar...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。