强化学习笔记(二)

马尔可夫性质

在一个时序过程中,如果t+1时的状态仅取决于t时的状态St,而与t时之前的任何状态都无关,则认为t时的状态St具有马尔可夫性质(Markov Property)。若过程中的每一个状态都具有马尔可夫性质,则这个过程就具备马尔可夫性质。

采样

从符合马尔可夫过程给定的状态转移概率矩阵生成一个状态序列的过程称为采样(Sampling)

状态序列

采样将得到一系列的状态转换过程,称为状态序列(Episode,或称为情节、片段)。当状态序列的最后一个状态是终止状态时,该状态序列称为完整的状态序列(Complete Episode)

马尔科夫过程

具备了马尔可夫性质的随机过程称为马尔可夫过程(Markov Process),或称为马尔可夫链(Markov Chain,MC),它是由状态空间和概率空间组成的一个元组<S,P>。
通常使用一个元组<S,P>来描述马尔可夫过程,其中S是有限数量的状态集,P是状态转移概率矩阵。

马尔科夫奖励过程

如果把奖励考虑进马尔可夫过程,则称为马尔可夫奖励过程(Markov Reward Process,MRP)。它是由<S,P,R,γ>构成的一个元组,其中:·S是一个有限状态集。·P是集合中状态转移概率矩阵。·R是一个奖励函数。·γ是一个衰减因子。

衰减因子

当γ取0时,表明某状态下的收获就是当前状态获得的即时奖励,不考虑后续状态,属于 “短视”行为。当γ取1时,表明将考虑所有的后续状态,属于有 “长远眼光”的行为。求解实际问题时,模型构建者可根据实际问题的特点来设定γ值。

价值函数

如果存在一个函数,给定一个状态能得到该状态对应的价值,那么该函数就被称为价值函数(Value Function)。价值函数建立了从状态到价值的映射

马尔科夫决策过程

马尔可夫奖励过程并不能直接用来指导解决强化学习问题,因为它不涉及个体行为的选择,所以有必要引入马尔可夫决策过程。马尔可夫决策过程(MarkovDecision Process,MDP) 是一个由构成的元组,其中:·S是一个有限状态集。·A是一个有限行为集。·P是集合中 基于行为的状态转移概率矩阵。·R是基于状态和行为的奖励函数。·γ是一个衰减因子。

解决强化学习问题意味着要寻找一个最优的策略(让个体在与环境交互过程中获得始终比其他策略都要多的收获),这个最优策略用π表示。一旦找到最优策略π,就意味着该强化学习问题得到了解决。

对于任何马尔可夫决策过程,存在一个最优策略π优于或至少不差于所有其他策略。一个马尔可夫决策过程可能存在不止一个最优策略,但最优策略下的状态价值函数均等同于最优状态价值函数。最优策略下的行为价值函数均等同于最优行为价值函数。

参考资料

[1] David Silver 强化学习课程.
[2] 叶强,闫维新,黎斌.强化学习入门:从原理到实践[M].北京.机械工业出版社, 2020.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wydxry

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值