马尔可夫决策过程MDP

一、背景介绍

  • Random Variable 随机变量

  • Stochastic Process 随机过程

  • Markov Chain/Process 马尔可夫链/过程

  • State Space Model 状态空间模型

  • Markov Reward Process 马尔可夫奖励过程

  • Markov Decision Process 马尔可夫决策过程

状态集、动作集和奖励集

状态下做出动作会得到奖励,有的书也会写成得到奖励,只是下标不同,没有实质区别,本文章内为遵循原视频讲解,统一使用

二、动态特性

马尔可夫决策过程图解:

动态特性(MDP四个量中的P)

即在状态s下做出动作a,环境将状态转换为s'并得到奖励r的概率。

状态转移函数

与动态特性类似,不过不再关心奖励r(与奖励r没有关系了),奖励r已经通过累加或积分处理掉了。这里需要注意,奖励r也是一个随机变量,即从状态s下做出动作a,环境更新状态为s',此时可能会得到奖励,也可能得到奖励,或者其他奖励。也就是说在相同状态下做出相同的动作并更新得到了相同的下一状态,得到的奖励也不一定相同,,因为奖励r是随机变量,是有概率的。当然,通常这个随机性不强,故没有特殊考虑过。

三、价值函数

策略Policy

折扣回报Discount Return

价值函数Value Function

这个其实是状态价值函数,跟王树森老师的叫法不同。

四、贝尔曼期望方程

是状态价值函数,是动作状态价值函数。表示状态到达了s,此时获得回报的期望值;表示在状态s下做出动作a可以获得的回报的期望值。

从这里可以看出的加权平均值。

下面给出的关系:

上面两个红色字体的式子即贝尔曼期望方程(Bellman Expectation Equation)

五、贝尔曼最优方程

最优状态价值函数与最优动作状态价值函数

原视频地址:【强化学习】马尔可夫决策过程【白板推导系列】

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值