使用百度PARL框架中的TD3算法解决四轴飞行器悬浮控制问题

项目任务

RLSchool 提供了一系列四轴飞行器的强化学习环境,包括悬浮控制、速度控制等。本文旨在针对悬浮控制环境比较百度Parl强化学习框架算法中的TD3相对于DDPG的优势。

理论

首先了解下TD3相对于DDPG的区别。

TD3的全称是Twin-Delayed Deep Deterministic Policy Gradient,和DDPG相比多了个Twin-Delayed。这也是TD3相对于DDPG的主要区别。和DDPG相比,TD3主要有以下3点改进:

  1. TD3 agent 会学习两个Q值,在更新策略时会选取较小的Q值。而DDPG只会学习一个Q值。这是TD3中“Twin”的由来。在Parl中的代码分别为:
DDPG: next_Q = self.target_model.value(next_obs, next_action)
TD3: next_Q = layers.elementwise_min
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值