Markov Decision Processes笔记

最新推荐文章于 2024-09-28 23:27:07 发布

胡萝卜carrotHUU

最新推荐文章于 2024-09-28 23:27:07 发布

阅读量363

点赞数 3

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53222965/article/details/141287662

版权

什么是MP（Markov Process）

马尔可夫性质：

状态转移矩阵：当前状态转移到下一个可能状态的概率

MP定义：

什么是sample episodes?

给定一个初始状态的状态序列

什么是MRP（Markov Reward Process）

MRP只是一个过程，并没有目的性质，只是针对定义的问题里面所有状态组成的马尔科夫链定义了Rewards，只有状态价值函数。

回报：是当前状态的即时奖励和带有折扣的未来奖励的和。如果折扣因子为0，说明没有前瞻性，只喜欢既得利益；如果折扣因子为1，说明未来的利益和当前利益一样重要。

设计折扣因子的原因：

①数学上的便利性②避免MP的无限循环③可以考虑未来的不确定性④对于经济和人类或动物行为学，通常只关注既得利益

※价值函数：状态s的长期价值

※MRP的贝尔曼方程

核心内容：价值函数可以分为①当前时刻即得回报②未来状态的折扣回报

贝尔曼方程可以用矩阵形式表示，方便求解，求解方法有动态规划Dynamic Programming,Monte-Carlo evaluation,Temporal-Difference learning。

什么是MDP（Markov Decision Process）

在MRP的基础上加了动作，想象自己是决策者，求解MDP的过程就是寻找整个问题的最优策略的过程POLICY。

什么是策略？

策略是在给定状态空间下动作空间的概率分布，也就是说一个策略就是在一个给定状态下采取某个动作的概率，一个策略可以完全定义一个智能体的行为。具有不受历史状态影响和静态特性。

状态价值函数和动作价值函数（这里由于存在动作，状态价值函数的形式和MRP的稍有不同）

状态价值函数和动作价值函数的贝尔曼方程

MDP两个重要的图（结合状态价值函数和动作价值函数）

最优价值函数

怎么判定一个策略好于另一个策略：需要这个策略在每个状态下的值函数都大于另一个策略

最优贝尔曼方程的求解

解决方法：value iteration,policy iteration,Q-learning,Sarsa

胡萝卜carrotHUU

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

胡萝卜carrotHUU CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

136万+: 周排名

8万+: 总排名

6650: 访问

: 等级

250: 积分

101: 粉丝

137: 获赞

8: 评论

131: 收藏

私信

关注

热门文章

分类专栏

Argoverse 1篇
API 1篇

最新评论

HiVT代码数据处理部分笔记
weixin_43251346: 以av视角是什么意思？它会输出多个agent的轨迹。
HiVT代码数据处理部分笔记
z樾: 博主您好，请问HiVT是通过AV视角实现预测场景中多智能体轨迹吗？现在我想通过轨迹预测在仿真器中模拟真实车辆，这个算法可行吗？想请教一下
Argoverse代码笔记:map_api.py
CSDN-Ada助手: 恭喜您发布了第9篇博客！阅读了您的“Argoverse代码笔记:map_api.py”后，深感受益匪浅。希望您能继续分享更多关于Argoverse代码的笔记，或者可以尝试写一些实际应用案例，让读者更好地理解代码的实际运用。期待您的下一篇作品！
HiVT代码数据处理部分笔记
CSDN-Ada助手: 恭喜您发布了第8篇博客“HiVT代码数据处理部分笔记”，内容看起来很详细，让人受益匪浅。希望您能继续保持创作的热情和耐心，分享更多有价值的内容。下一步建议可以尝试结合实际案例或者应用场景，加深读者对内容的理解和应用。期待您更多精彩的分享！
书生·浦语作业四
CSDN-Ada助手: "恭喜书生在浦语作业四中的精彩表现！持续创作是非常难得的品质，希望你能够继续保持这样的创作热情。下一步，或许可以尝试挑战一些不同题材或风格的作品，这样可以更好地拓展自己的创作能力。期待你的下一篇作品！"

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。