强化学习笔记（二）

最新推荐文章于 2023-11-27 22:12:04 发布

wydxry

最新推荐文章于 2023-11-27 22:12:04 发布

阅读量232

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/wydxry/article/details/113186760

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

马尔可夫性质

在一个时序过程中，如果t+1时的状态仅取决于t时的状态St，而与t时之前的任何状态都无关，则认为t时的状态St具有马尔可夫性质（Markov Property）。若过程中的每一个状态都具有马尔可夫性质，则这个过程就具备马尔可夫性质。

采样

从符合马尔可夫过程给定的状态转移概率矩阵生成一个状态序列的过程称为采样（Sampling）。

状态序列

采样将得到一系列的状态转换过程，称为状态序列（Episode，或称为情节、片段）。当状态序列的最后一个状态是终止状态时，该状态序列称为完整的状态序列（Complete Episode）。

马尔科夫过程

具备了马尔可夫性质的随机过程称为马尔可夫过程（Markov Process），或称为马尔可夫链（Markov Chain，MC），它是由状态空间和概率空间组成的一个元组<S,P>。
通常使用一个元组<S,P>来描述马尔可夫过程，其中S是有限数量的状态集，P是状态转移概率矩阵。

马尔科夫奖励过程

如果把奖励考虑进马尔可夫过程，则称为马尔可夫奖励过程（Markov Reward Process，MRP）。它是由<S,P,R,γ>构成的一个元组，其中：·S是一个有限状态集。·P是集合中状态转移概率矩阵。·R是一个奖励函数。·γ是一个衰减因子。

衰减因子

当γ取0时，表明某状态下的收获就是当前状态获得的即时奖励，不考虑后续状态，属于 “短视”行为。当γ取1时，表明将考虑所有的后续状态，属于有 “长远眼光”的行为。求解实际问题时，模型构建者可根据实际问题的特点来设定γ值。

价值函数

如果存在一个函数，给定一个状态能得到该状态对应的价值，那么该函数就被称为价值函数（Value Function）。价值函数建立了从状态到价值的映射。

马尔科夫决策过程

马尔可夫奖励过程并不能直接用来指导解决强化学习问题，因为它不涉及个体行为的选择，所以有必要引入马尔可夫决策过程。马尔可夫决策过程（MarkovDecision Process，MDP） 是一个由构成的元组，其中：·S是一个有限状态集。·A是一个有限行为集。·P是集合中 基于行为的状态转移概率矩阵。·R是基于状态和行为的奖励函数。·γ是一个衰减因子。

解决强化学习问题意味着要寻找一个最优的策略（让个体在与环境交互过程中获得始终比其他策略都要多的收获），这个最优策略用π表示。一旦找到最优策略π，就意味着该强化学习问题得到了解决。

对于任何马尔可夫决策过程，存在一个最优策略π优于或至少不差于所有其他策略。一个马尔可夫决策过程可能存在不止一个最优策略，但最优策略下的状态价值函数均等同于最优状态价值函数。最优策略下的行为价值函数均等同于最优行为价值函数。

参考资料

[1] David Silver 强化学习课程.
[2] 叶强,闫维新,黎斌．强化学习入门：从原理到实践[M]．北京．机械工业出版社, 2020.

wydxry

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习笔记（二）

马尔可夫性质在一个时序过程中，如果t+1时的状态仅取决于t时的状态St，而与t时之前的任何状态都无关，则认为t时的状态St具有马尔可夫性质（Markov Property）。若过程中的每一个状态都具有马尔可夫性质，则这个过程就具备马尔可夫性质。采样从符合马尔可夫过程给定的状态转移概率矩阵生成一个状态序列的过程称为采样（Sampling）。状态序列采样将得到一系列的状态转换过程，称为状态序列（Episode，或称为情节、片段）。当状态序列的最后一个状态是终止状态时，该状态序列称为完整的状态序列（Co
复制链接

扫一扫