[强化学习论文] (HDQN) Integrating Temporal Abstraction and Intrinsic Motivation

最新推荐文章于 2024-02-22 16:30:51 发布

zhkmxx930

最新推荐文章于 2024-02-22 16:30:51 发布

阅读量1.6k

点赞数 3

分类专栏：强化学习 HDQN 文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhkmxx930xperia/article/details/87742722

版权

强化学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

转自我的博客

论文

题目: Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation
作者: Tejas D. Kulkarni, Karthik R. Narasimhan, Ardavan Saeedi, Joshua B. Tenenbaum
论文: https://arxiv.org/abs/1604.06057
年份: 2016
参考: https://github.com/aleju/papers/blob/master/neural-nets/Hierarchical_Deep_Reinforcement_Learning.md

总结

1.主要贡献

提出了一种分层强化学习方法
该方法使用了长期目标(long-term goal)指导短期动作(short-term choice)的选择

2.主要方法

两个重要组件
- Meta-controller
  - 负责生成长期目标long term goal;
  - 通过训练Meta-controller使其能够根据当前state来选取目标goal，使得extrinsic reward最大;
  - 当且仅当底层执行器Controller完成一个episode或者达成某个Meta-controller产生的goal的时候，Meta-controller再去产生新的目标goal。
- Controller
  - 从环境中获取当前state，并从Meta-controller中获取当前目标goal;
  - 基于当前goal和当前的state，来选取最大化intrinsic reward期望的action，这里与传统的rf相同只是增加了目标goal，这里通过估计action-value function ( $Q_1(s_t, a_t;\theta_1,g_t)$ )来做;
  - Reward 是 intrinsic的，在agent内部，这个intrinsic reward由Critic网络产生，当且仅当当前的目标达到时，才会产生intrinsic reward。

preview

在蒙特祖玛的复仇(Montezuma’s Revenge)上实验
- 目标Goal是一些手动设置的特定游戏object，比如钥匙，在实验中，将设置一个与游戏屏幕大小相等的遮罩层，当且仅当目标object的位置上的二进制位是1，其他像素上的二进制值为0；
- Meta-controller通过Q function选择要到达的下一个Goal;
- Controller根据Q function选择能够到达Goal的action, 其不断迭代选择action，直到其完成一个episode或到达Goal；
- 每当达到目标Goal时，Critic都会向Controller提供内在奖励(intrinsic reward);
- CNN用于Meta-controller和Controller，在架构上类似于Atari-DQN论文(shallow CNNs);
- 使用两个Replay buffer，一个用于Meta-controller(大小为40k)，一个用于Controller(大小为1M);
- Meta-controller和Controller两者都遵循epsilon-greedy。Epsilon从1.0开始，减小至0.1;
- 折扣因子γ为0.9;
- 使用SGD优化。

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
[强化学习论文] (HDQN) Integrating Temporal Abstraction and Intrinsic Motivation

转自我的博客论文题目: Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation作者: Tejas D. Kulkarni, Karthik R. Narasimhan, Ardavan Saeedi, Joshua B. Tenenbau...
复制链接

扫一扫

专栏目录

zhkmxx930 CSDN认证博客专家 CSDN认证企业博客

码龄13年

12: 原创

39万+: 周排名

7万+: 总排名

8万+: 访问

: 等级

696: 积分

104: 粉丝

124: 获赞

16: 评论

500: 收藏

私信

关注

热门文章

分类专栏

最新评论

Kubedge keadm init 出现Error: context deadline exceeded
CSDN-Ada助手: 恭喜您发布了第11篇博客！不过很遗憾您在Kubedge keadm init时遇到了Error: context deadline exceeded的问题。希望您能够顺利解决这个困扰，继续分享您的学习和经验。或许您可以尝试深入了解这个错误的原因，并写下解决方案，这将对其他读者也是一个很好的帮助。期待您的下一篇博客！愿您创作顺利！
coredns 状态为running但not ready
CSDN-Ada助手: 恭喜您写了第10篇博客！看到您遇到的问题“coredns 状态为running但not ready”，我觉得您的经验分享对于遇到相同问题的读者会非常有帮助。接下来，您可以考虑深入探讨一些常见的容器技术问题，或者分享一些实用的解决方案，相信会吸引更多读者的关注。期待您的下一篇作品！
Kubeadm v1.28 国内 kubeadm init 失败的问题
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
PPO、GAE笔记
zhkmxx930: 我记得是1，gae论文说了我记得，有点久了，你看代码备注
PPO、GAE笔记
星行夜空: 请问lambda一般取多少呀

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。