[RL 2] Soft Q-learning

论文: Reinforcement Learning with Deep Energy-Based Policies

算法设计与理论

  • 作者想要得到一种max entropy并且expressive的policy, policy的分布形如 π ( a ∣ s ) ∼ exp ⁡ ( Q π ( s , a ) ) \pi (a|s) \sim \exp (Q^\pi(s,a)) π(as)exp(Qπ(s,a)), 即energy-based的形式.
  • 在定理1中, 作者定义了soft Q和soft V函数, 其中soft Q函数包含了long term entropy的期望, 即算法使用了max entropy framework. 通过证明形如(17)形式的策略改进符合策略提升定理, 作者从而证明最优策略符合energy-based的形式. 以上揭示了max entropy和energy的联系.
  • 定理2指明了定义soft Q函数存在bellman/TD等式. 同时, 该等式与Q-learning中Q的等式相似, 不同之处在于, 在Q-learning处理离散动作空间中, 等式为hardmax(argmax)形式; 而在soft Q-learning处理的连续动作空间中, 等式为softmax形式(LogSumExp). 这是soft Q-learning中soft的来源.
  • 定理3利用定理2得到的等式, 给出了Q的更新方式, 同时证明了 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a)理论上的可解性.

算法实现

  • 函数近似: Q θ ( s , a ) Q_\theta (s,a) Qθ(s,a)
  • Q更新: 依据 eq(2)-(3)
  • 理论算法中存的在2个问题
    • V无法计算, 进而Q无法更新和计算, 因为V的计算涉及在action space上的积分.
      • 解决方案: important sampling.
    • 无法按照 π ( a ∣ s ) ∼ exp ⁡ ( Q π ( s , a ) ) \pi (a|s) \sim \exp (Q^\pi(s,a)) π(as)exp(Qπ(s,a))采样.
      • 解决方案: SVGD.

仿真

仿真从3个角度展开.

  • multi-modal policy: 算法是否能实现energy-based policy?
    测试任务具有多个目标(不同目标点的reward相同).
  • exploration: 算法(max entropy framework)能实现有效的exploration?
  • good initialization: 算法(max entropy framework)预训练的模型能否有效transfer?
    在gengeral task中用SQL对policy参数进行预训练, 预训练好的参数用来初始化specific task中policy的参数(类似transfer). 结果显示此方法能提高学习速度, 但使用DDPG预训练的参数缺达不到这种效果, 因为DDPG学到的policy是deterministic的, 不能促进exploration.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值