前言
本文介绍如何基于MATLAB编写step、reset函数,创建自己的强化学习环境(Environment)。
使用 rlFunctionEnv 函数,可以根据观察(observation)规范、动作(action)规范和自己创建的step、reset函数创建 MATLAB 强化学习环境,并可以在此环境中训练强化学习智能体(agent)。
对于更复杂的环境,可以使用模板类创建环境对象。
强化学习环境(Environment)简介
environment建立了与agent存在交互的外部系统模型,在该环境中训练agent完成任务。
在控制系统应用中,该外部系统通常称为plant。environment中包含可能需要获取的任何参考信号的环境变量。
强化学习框架
agent和environment交互序列以离散时间步数表示:
- 给定时间步 t t t,environment的state为 S ( t ) S(t) S(t),产生的observation为 O ( t ) O(t) O(t);基于 O ( t ) O(t) O(t)和自身策略函数,agent得到的action为 A ( t ) A(t) A(