论文: Reinforcement Learning with Deep Energy-Based Policies
算法设计与理论
- 作者想要得到一种max entropy并且expressive的policy, policy的分布形如 π ( a ∣ s ) ∼ exp ( Q π ( s , a ) ) \pi (a|s) \sim \exp (Q^\pi(s,a)) π(a∣s)∼exp(Qπ(s,a)), 即energy-based的形式.
- 在定理1中, 作者定义了soft Q和soft V函数, 其中soft Q函数包含了long term entropy的期望, 即算法使用了max entropy framework. 通过证明形如(17)形式的策略改进符合策略提升定理, 作者从而证明最优策略符合energy-based的形式. 以上揭示了max entropy和energy的联系.
- 定理2指明了定义soft Q函数存在bellman/TD等式. 同时, 该等式与Q-learning中Q的等式相似, 不同之处在于, 在Q-learning处理离散动作空间中, 等式为hardmax(argmax)形式; 而在soft Q-learning处理的连续动作空间中, 等式为softmax形式(LogSumExp). 这是soft Q-learning中soft的来源.
- 定理3利用定理2得到的等式, 给出了Q的更新方式, 同时证明了 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a)理论上的可解性.
算法实现
- 函数近似: Q θ ( s , a ) Q_\theta (s,a) Qθ(s,a)
- Q更新: 依据 eq(2)-(3)
- 理论算法中存的在2个问题
- V无法计算, 进而Q无法更新和计算, 因为V的计算涉及在action space上的积分.
- 解决方案: important sampling.
- 无法按照
π
(
a
∣
s
)
∼
exp
(
Q
π
(
s
,
a
)
)
\pi (a|s) \sim \exp (Q^\pi(s,a))
π(a∣s)∼exp(Qπ(s,a))采样.
- 解决方案: SVGD.
- V无法计算, 进而Q无法更新和计算, 因为V的计算涉及在action space上的积分.
仿真
仿真从3个角度展开.
- multi-modal policy: 算法是否能实现energy-based policy?
测试任务具有多个目标(不同目标点的reward相同). - exploration: 算法(max entropy framework)能实现有效的exploration?
- good initialization: 算法(max entropy framework)预训练的模型能否有效transfer?
在gengeral task中用SQL对policy参数进行预训练, 预训练好的参数用来初始化specific task中policy的参数(类似transfer). 结果显示此方法能提高学习速度, 但使用DDPG预训练的参数缺达不到这种效果, 因为DDPG学到的policy是deterministic的, 不能促进exploration.