使用百度PARL框架中的TD3算法解决四轴飞行器悬浮控制问题

最新推荐文章于 2024-05-08 11:50:19 发布

wienparis

最新推荐文章于 2024-05-08 11:50:19 发布

阅读量760

点赞数

文章标签：神经网络强化学习 paddlepaddle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wienparis/article/details/107551319

版权

项目任务

RLSchool 提供了一系列四轴飞行器的强化学习环境，包括悬浮控制、速度控制等。本文旨在针对悬浮控制环境比较百度Parl强化学习框架算法中的TD3相对于DDPG的优势。

理论

首先了解下TD3相对于DDPG的区别。

TD3的全称是Twin-Delayed Deep Deterministic Policy Gradient，和DDPG相比多了个Twin-Delayed。这也是TD3相对于DDPG的主要区别。和DDPG相比，TD3主要有以下3点改进：

TD3 agent 会学习两个Q值，在更新策略时会选取较小的Q值。而DDPG只会学习一个Q值。这是TD3中“Twin”的由来。在Parl中的代码分别为：

DDPG: next_Q = self.target_model.value(next_obs, next_action)
TD3: next_Q = layers.elementwise_min

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
使用百度PARL框架中的TD3算法解决四轴飞行器悬浮控制问题

项目任务RLSchool 提供了一系列四轴飞行器的强化学习环境，包括悬浮控制、速度控制等。本文旨在针对悬浮控制环境比较百度Parl强化学习框架算法中的TD3相对于DDPG的优势。理论首先了解下TD3相对于DDPG的区别。TD3的全称是Twin-Delayed Deep Deterministic Policy Gradient，和DDPG相比多了个Twin-Delayed。这也是TD3相对于DDPG的主要区别。和DDPG相比，TD3主要有以下3点改进：TD3 agent 会学习两个Q值，在更新策
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。