强化学习入门(Matlab2021b)-创建策略和价值函数【1(上)】

最新推荐文章于 2024-06-12 09:47:57 发布

余加木

最新推荐文章于 2024-06-12 09:47:57 发布

阅读量856

点赞数 11

分类专栏：强化学习[Matlab] 文章标签：人工智能深度学习机器学习 matlab

本文链接：https://blog.csdn.net/zjh2883/article/details/136203449

版权

1 前言

1、策略(policy)是从环境观测值到计划采取动作的概率分布的映射。
2、价值函数(value/Q-valua function)是从环境观测值(或观测-动作)到策略值的映射。
3、策略的价值被定义为最大化期望累积奖励。

强化学习智能体使用参数化策略和价值函数，它们分别由称为Actors和Critics的函数近似器实现。在训练期间，Actors学习选择可采取最佳动作的策略，即通过调整参数使产生更大价值的动作具备更大的概率。Critics学习估计当前策略价值的价值函数，即通过调整参数使预测的奖励接近观察到的奖励。

在创建非默认智能体之前，必须使用近似模型（如深度神经网络、线性基函数或查找表）创建Actors和Critics，可以使用的函数逼近器类型和模型取决于要创建的智能体类型。

Reinforcement Learning Toolbox软件支持以下类型的Actors和Critics：

类型	说明
$V(S\|\theta_V)$	Critics根据给定的观察值 $S$ 来估计策略的期望累积奖励，可使用rlValueFunction创建Critics。
$Q(S,A\|\theta_Q)$	Critics根据给定的离散动作 $A$ 和给定的观测 $S$ ，估计策略的期望累积奖励，可使用rlQValueFunction创建Critics。

关注