Markov Decision Processes笔记

什么是MP(Markov Process)

马尔可夫性质:

状态转移矩阵:当前状态转移到下一个可能状态的概率

MP定义:

什么是sample episodes?

给定一个初始状态的状态序列

什么是MRP(Markov Reward Process)

MRP只是一个过程,并没有目的性质,只是针对定义的问题里面所有状态组成的马尔科夫链定义了Rewards,只有状态价值函数。

回报:是当前状态的即时奖励和带有折扣的未来奖励的和。如果折扣因子为0,说明没有前瞻性,只喜欢既得利益;如果折扣因子为1,说明未来的利益和当前利益一样重要。

设计折扣因子的原因:

①数学上的便利性②避免MP的无限循环③可以考虑未来的不确定性④对于经济和人类或动物行为学,通常只关注既得利益

※价值函数:状态s的长期价值

※MRP的贝尔曼方程

核心内容:价值函数可以分为①当前时刻即得回报②未来状态的折扣回报

贝尔曼方程可以用矩阵形式表示,方便求解,求解方法有动态规划Dynamic Programming,Monte-Carlo evaluation,Temporal-Difference learning。

什么是MDP(Markov Decision Process)

在MRP的基础上加了动作,想象自己是决策者,求解MDP的过程就是寻找整个问题的最优策略的过程POLICY。

什么是策略?

策略是在给定状态空间下动作空间的概率分布,也就是说一个策略就是在一个给定状态下采取某个动作的概率,一个策略可以完全定义一个智能体的行为。具有不受历史状态影响和静态特性。

状态价值函数和动作价值函数(这里由于存在动作,状态价值函数的形式和MRP的稍有不同)

状态价值函数和动作价值函数的贝尔曼方程

MDP两个重要的图(结合状态价值函数和动作价值函数)

最优价值函数

怎么判定一个策略好于另一个策略:需要这个策略在每个状态下的值函数都大于另一个策略

最优贝尔曼方程的求解

解决方法:value iteration,policy iteration,Q-learning,Sarsa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值