强化学习之Passive learning求解 (1)

原创

于 2021-12-01 06:26:18 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #强化学习

本文深入探讨了在未知马尔科夫决策过程（MDP）中，被动学习（Passive Learning）的三种模式：基于效用的代理、Q学习和反射代理。重点介绍了被动学习的策略，包括直接效用估计、自适应动态规划（ADP）和时间差分（TD）学习。直接效用估计通过平均奖励来更新状态效用，而ADP和TD学习则利用状态间的依赖关系改进策略。TD学习在不需要完整环境模型的情况下也能进行学习，虽然速度较慢但计算成本更低。

在MDP系列博客中，我们以一个Agent在4*3网格中寻找终点最优的路径策略为例，论述了MDP问题的原理和求解。有了MDP讲解作为基础之后，我们就可以正式的切入到“强化学习”的学习中来了。强化学习的目的是通过观测到的reward来为当前环境学习一个（近似）最优的策略。在MDP系列问题中，我们有一个完整的环境模型并且reward函数也是已知的。

在本文中我们将假设一个fully observable的环境（即当前状态可以通过每一步的感知获取）。另一方面，我们假设Agent 不知道环境是如何运行或者agent的动作是如何执行的，即我们允许出现概率动作结果。因此，agent面临的是一个未知的马尔科夫决策过程问题。首先，我们介绍三种agent的运行模式：

Utility-based agent：学习状态的一个效用函数，并使用该函数来选择使得效用期望值最大化的动作。
Q-LEARNING：学习一个动作-效用函数，或者称之为Q-function，即在给定state的情况下分析给定动作的效用期望。
Reflex agent：直接学习一个从state到actions的映射。

其中，utility-based agent必须有一个明确的环境模型，明确知道采用一个action将导致什么样的states。Q-learning agent可以通过比较当前可用选择对应的效用期望，它并不需要知道他们的结果，因此明确的环境模型并非是必须的。另一方面，由于他们并不知道动作所导致的结果，Q-learning不能够对未来进行展望, 因此它的学习能力也会受到限制，后面将对此进一步介绍。

我们将介绍两种学习的策略，分别是passive learning 和active learning。其中passive learning中agent的策略是固定的，其目标是学习状态的效用（或状态<