[RL 2] Soft Q-learning

最新推荐文章于 2024-04-20 09:53:40 发布

xyp99

最新推荐文章于 2024-04-20 09:53:40 发布

阅读量1.1k

点赞数

分类专栏： DRL 算法

本文链接：https://blog.csdn.net/xyp99/article/details/108930944

版权

16 篇文章 3 订阅

订阅专栏

论文: Reinforcement Learning with Deep Energy-Based Policies

作者想要得到一种max entropy并且expressive的policy, policy的分布形如 $\pi (a|s) \sim \exp (Q^\pi(s,a))$ , 即energy-based的形式.
在定理1中, 作者定义了soft Q和soft V函数, 其中soft Q函数包含了long term entropy的期望, 即算法使用了max entropy framework. 通过证明形如(17)形式的策略改进符合策略提升定理, 作者从而证明最优策略符合energy-based的形式. 以上揭示了max entropy和energy的联系.
定理2指明了定义soft Q函数存在bellman/TD等式. 同时, 该等式与Q-learning中Q的等式相似, 不同之处在于, 在Q-learning处理离散动作空间中, 等式为hardmax(argmax)形式; 而在soft Q-learning处理的连续动作空间中, 等式为softmax形式(LogSumExp). 这是soft Q-learning中soft的来源.
定理3利用定理2得到的等式, 给出了Q的更新方式, 同时证明了 $Q^\pi(s,a)$ 理论上的可解性.

函数近似: $Q_\theta (s,a)$
Q更新: 依据 eq(2)-(3)
理论算法中存的在2个问题
- V无法计算, 进而Q无法更新和计算, 因为V的计算涉及在action space上的积分.
  - 解决方案: important sampling.
- 无法按照 $\pi (a|s) \sim \exp (Q^\pi(s,a))$ 采样.
  - 解决方案: SVGD.

仿真从3个角度展开.

multi-modal policy: 算法是否能实现energy-based policy?
测试任务具有多个目标(不同目标点的reward相同).
exploration: 算法(max entropy framework)能实现有效的exploration?
good initialization: 算法(max entropy framework)预训练的模型能否有效transfer?
在gengeral task中用SQL对policy参数进行预训练, 预训练好的参数用来初始化specific task中policy的参数(类似transfer). 结果显示此方法能提高学习速度, 但使用DDPG预训练的参数缺达不到这种效果, 因为DDPG学到的policy是deterministic的, 不能促进exploration.

关注