Planning by DP

最新推荐文章于 2022-12-17 17:42:19 发布

_beep

最新推荐文章于 2022-12-17 17:42:19 发布

阅读量152

点赞数

文章标签： Dynamic Programming Reinforcement Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43977768/article/details/100702784

版权

Dynamic Programming

整体性->子问题最优解 devide and conquer
MDP问题和Bellman方程可以通过DP来求解
解决planning问题
- Input: MDP(S, A, P, R, γ) or _Π
- Output：value function v_Π
- for Prediction vs for Control

Policy Evaluation

对已知的pollicy进行评估
通过期望形式的Bellman方程迭代
v_1 -> v_2 -> …… -> v_Π
每次迭代都会使用到所有的状态
s在k+1次迭代的value是由s’状态在k次迭代的value值带入Bellman迭代方程得出的
Random policy vs Greedy policy

Policy Iteration

Given a policy Π -> 让它变得更好
- step 1. 评估这个policy Π
- step 2. Improve -> 在evaluation结果中挑选好的policy : Π’ = greedy(v_Π)
- Thm：通过迭代一定会收敛于一个最优的policy
迭代 -> 高出评估 -> 更新policy -> 迭代 -> ……
迭代的improvement终止 -> 满足Bellman最优方程 -> v_Π = max q_Π(s, a) -> v_Π = v_* 最优
- 引入一个停止条件
- k次迭代后停止 —— simple

Value Iteration

后向感应方法 -> if we knew the solution to subproblems v_*(s’)
回溯法 vs 同步动态规划(generally)
value迭代的时间复杂度：O(mn²) (m个action, n个state)
q迭代的时间复杂度：O(m²n²)

Extensions

更为高效的算法：异步DP

In-place DP：每个state的计算都使用最新value，即不全是叶子节点，还有已迭代的根节点
优先级排序：误差(两次迭代差值)大的状态，具有更高的优先级
real-time DP：真实环境中，agent真正到达的状态是我们更加关心的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Planning by DP

Dynamic Programming整体性->子问题最优解 devide and conquerMDP问题和Bellman方程可以通过DP来求解解决planning问题Input: MDP(S, A, P, R, γ) or _ΠOutput：value function v_Πfor Prediction vs for ControlPolicy Evalua...
复制链接

扫一扫

_beep CSDN认证博客专家 CSDN认证企业博客

码龄6年

18: 原创

16万+: 周排名

118万+: 总排名

2万+: 访问

: 等级

403: 积分

1: 粉丝

16: 获赞

1: 评论

73: 收藏

私信

关注

热门文章

最新评论

HTTP_Wireshark
湘梦沉酣: 实验一第七问中的packect content window 式最下面那个许多二进制码的窗口不是中间那个.所以答案应该是没有header

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。