项目任务
RLSchool 提供了一系列四轴飞行器的强化学习环境,包括悬浮控制、速度控制等。本文旨在针对悬浮控制环境比较百度Parl强化学习框架算法中的TD3相对于DDPG的优势。
理论
首先了解下TD3相对于DDPG的区别。
TD3的全称是Twin-Delayed Deep Deterministic Policy Gradient,和DDPG相比多了个Twin-Delayed。这也是TD3相对于DDPG的主要区别。和DDPG相比,TD3主要有以下3点改进:
- TD3 agent 会学习两个Q值,在更新策略时会选取较小的Q值。而DDPG只会学习一个Q值。这是TD3中“Twin”的由来。在Parl中的代码分别为:
DDPG: next_Q = self.target_model.value(next_obs, next_action)
TD3: next_Q = layers.elementwise_min