MATLAB - 比较 DDPG Agent 和 LQR 控制器

kuan_li_lyg

已于 2024-11-18 10:11:36 修改

阅读量1.3k

点赞数 19

分类专栏： MATLAB 机器人与控制系统应用文章标签： matlab 机器人自动驾驶 ROS 强化学习 LQR 最优控制

于 2024-01-19 06:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46300916/article/details/135638527

版权

MATLAB 机器人与控制系统应用专栏收录该内容

88 篇文章 ¥29.90 ¥99.00

订阅专栏

系列文章目录

前言

本示例展示了如何训练深度确定性策略梯度（DDPG）Agent，以控制 MATLAB® 中建模的二阶线性动态系统。该示例还将 DDPG Agent 与 LQR 控制器进行了比较。

有关 DDPG 代理的更多信息，请参阅深度确定性策略梯度 (DDPG) 代理。有关如何在 Simulink® 中训练 DDPG agent 的示例，请参阅训练 DDPG agent 向上摆动并平衡摆锤。

一、双积分器 MATLAB 环境

本例的强化学习环境是一个具有增益的二阶双积分器系统。训练目标是通过施加力输入来控制二阶系统中质量的位置。

对于这种环境：

质量从-4 或 4 个单位的初始位置开始。
从环境中观测到的是质量的位置和速度。
如果质量从初始位置移动超过 5 米，或者∣x∣<0.01，则事件结束。
每个时间步提供的奖励 $eq?r_t$ 是 r(t) 的离散化：

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。