[强化学习论文] (HDQN) Integrating Temporal Abstraction and Intrinsic Motivation

转自我的博客

论文

总结

1.主要贡献

  • 提出了一种分层强化学习方法
  • 该方法使用了长期目标(long-term goal)指导短期动作(short-term choice)的选择

2.主要方法

  • 两个重要组件
    • Meta-controller
      • 负责生成长期目标long term goal;
      • 通过训练Meta-controller使其能够根据当前state来选取目标goal,使得extrinsic reward最大;
      • 当且仅当底层执行器Controller完成一个episode或者达成某个Meta-controller产生的goal的时候,Meta-controller再去产生新的目标goal。
    • Controller
      • 从环境中获取当前state,并从Meta-controller中获取当前目标goal;
      • 基于当前goal和当前的state,来选取最大化intrinsic reward期望的action,这里与传统的rf相同只是增加了目标goal,这里通过估计action-value function ( Q 1 ( s t , a t ; θ 1 , g t ) Q_1(s_t, a_t;\theta_1,g_t) Q1(st,at;θ1,gt) )来做;
      • Reward 是 intrinsic的,在agent内部,这个intrinsic reward由Critic网络产生,当且仅当当前的目标达到时,才会产生intrinsic reward。

preview

  • 在蒙特祖玛的复仇(Montezuma’s Revenge)上实验
    • 目标Goal是一些手动设置的特定游戏object,比如钥匙,在实验中,将设置一个与游戏屏幕大小相等的遮罩层,当且仅当目标object的位置上的二进制位是1,其他像素上的二进制值为0;
    • Meta-controller通过Q function选择要到达的下一个Goal;
    • Controller根据Q function选择能够到达Goal的action, 其不断迭代选择action,直到其完成一个episode或到达Goal;
    • 每当达到目标Goal时,Critic都会向Controller提供内在奖励(intrinsic reward);
    • CNN用于Meta-controller和Controller,在架构上类似于Atari-DQN论文(shallow CNNs);
    • 使用两个Replay buffer,一个用于Meta-controller(大小为40k),一个用于Controller(大小为1M);
    • Meta-controller和Controller两者都遵循epsilon-greedy。Epsilon从1.0开始,减小至0.1;
    • 折扣因子γ为0.9;
    • 使用SGD优化。

1

2

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值