强化学习超进化:经典问题 30 年后惊现闭式解;TensorFlow2 强化学习教程 GitHub 代码大公开

30年后,强化学习经典控制问题MountainCar-v0出现闭式解,仅依赖简单不等式。同时,配套TensorFlow2的强化学习教程《强化学习:原理与Python实现》公开,融合多种经典教程,提供完备理论与实践代码,成为全球首本TensorFlow 2强化学习教程。
摘要由CSDN通过智能技术生成

强化学习经典控制问题 30 年后惊现闭式解

MountainCar-v0 是 Andrew Moore 在 1990 年提出的控制问题,提出后受到强化学习界的广泛关注,并收录到强化学习影响力最大的环境库之一 Gym 中,成为大多数强化学习教程中必用的环境。
在这里插入图片描述
图1 经典控制问题MountainCar-v0(图片来源:https://gym.openai.com/envs/MountainCar-v0/)

2019 年,OpenAI Gym Leaderboard 上出现了对该环境求解的突破性进展:上面显示了一个仅用很少的回合就可以完成学习的强化学习代码,又给出了一个不需要学习的闭式解。

更令人惊奇的是,这个闭式解只依赖于一个不等式,并且这个不等式只用到四次多项式。他在满足这个不等式时采用一种动作,不满足时采用另外一种动作,这样竟然就能解决这个问题。

这两种解法目前位于 OpenAI Gym 的排行榜的前两名。

第一名就是用不等式的闭式解,第二名则用了强化学习中的资格迹算法。

第二名解法用了75个回合数据就解决了问题,数据利用率是排名第三的算法(用了341个回合数据)的4.5倍。
在这里插入图片描述
图2 MountainCar-v0排行榜页面(图片来源:h

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值