系列文章目录
前言
本示例展示了如何训练深度确定性策略梯度(DDPG)Agent,以控制 MATLAB® 中建模的二阶线性动态系统。该示例还将 DDPG Agent 与 LQR 控制器进行了比较。
有关 DDPG 代理的更多信息,请参阅深度确定性策略梯度 (DDPG) 代理。有关如何在 Simulink® 中训练 DDPG agent 的示例,请参阅训练 DDPG agent 向上摆动并平衡摆锤。
一、双积分器 MATLAB 环境
本例的强化学习环境是一个具有增益的二阶双积分器系统。训练目标是通过施加力输入来控制二阶系统中质量的位置。
对于这种环境:
- 质量从-4 或 4 个单位的初始位置开始。
- 从环境中观测到的是质量的位置和速度。
- 如果质量从初始位置移动超过 5 米,或者∣x∣<0.01,则事件结束。
- 每个时间步提供的奖励
是 r(t) 的离散化: