从RL角度看MDP过程

最新推荐文章于 2022-04-26 09:07:24 发布

_beep

最新推荐文章于 2022-04-26 09:07:24 发布

阅读量389

点赞数

文章标签： reinforcement learning MDP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43977768/article/details/100667266

版权

Markov Reward Processes

任何部分可观测问题都可以转化为马尔可夫过程 MDP化

Markov Property
状态转移概率 -> 矩阵告诉我们在当前状态下,有多大概率到达哪个state
a tuple(S,P)
non-stationary MDP 不稳定的动态过程如概率变化

Reward

a tuple (S, P, R, γ)
return G 强化学习的目标 γ:折扣因子所有的returns都是有限的
value function v(s) -> 长期的reward 期望值
Bellman方程矩阵表示： v = R + γPv (P为状态转移概率矩阵) -> 线性方程可求解v

Action空间

a tuple (S, A, P, R, γ)
A：有限action的集合
policy：完全定义agent的行为 -> 决策概率 vs 环境的状态转移概率
v_Π(s)：基于当前policy下的value function
在s状态下的一个action可能到达s1，也可能到达s2
离开一个state时，采取不同的action可能得到不同的reward
“你采取一个action，环境就给你掷一个骰子，告诉你在哪个state结束”

Best policy

v_*(s) = max_Π v_Π(s)
v_Π(s) 是在policy下各个action对应的 q_Π(s, a) 价值的期望
Optimal policy -> “好”意味着更大的v_Π(s)
定理：MDP中至少存在一个唯一的policy(q*) 是最佳policy，意味着它优于或至少和其他的policy一样好
q*是我们最想得到的最终目的值
由v计算q -> 由q计算v
value最大值的迭代Ballman方程非线性需要采用其他方式求解：
-Value Iteration
-Policy Iteration
-Q-learning
-Saras

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从RL角度看MDP过程

Markov Reward Processes任何部分可观测问题都可以转化为马尔可夫过程 MDP化Markov Property状态转移概率 -> 矩阵告诉我们在当前状态下,有多大概率到达哪个statea tuple(S,P)non-stationary MDP 不稳定的动态过程如概率变化Rewarda tuple (S, P, R, γ)return G 强化学...
复制链接

扫一扫

_beep CSDN认证博客专家 CSDN认证企业博客

码龄6年

18: 原创

16万+: 周排名

112万+: 总排名

2万+: 访问

: 等级

399: 积分

1: 粉丝

16: 获赞

1: 评论

73: 收藏

私信

关注

热门文章

最新评论

HTTP_Wireshark
湘梦沉酣: 实验一第七问中的packect content window 式最下面那个许多二进制码的窗口不是中间那个.所以答案应该是没有header

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。