【强化学习】价值迭代与策略迭代

最新推荐文章于 2024-07-03 16:48:02 发布

DQ_2023

最新推荐文章于 2024-07-03 16:48:02 发布

阅读量445

点赞数 2

文章标签： python Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45743949/article/details/129143065

版权

初学强化学习，看了David Silver的视频最初没有看懂价值迭代与策略迭代二者区别，看了几篇博客后理解了，分享一下给大家参考。公式等在这里不再赘述，只纪录一下我当初没有理解的部分。

1.策略迭代

1.1 策略评估

课堂中的这幅图片误导了我一段时间，实际上是只有左边描述了一次策略评估的过程，右边图的意思是其实无需迭代很多次，V矩阵对应的贪心策略已经满足最优策略（但实际上在迭代过程中我们并不知道当前V的策略，因为策略迭代中策略评估与策略改进是分开的，只有在策略改进阶段我们才能确定当前的策略）。但在实际的策略评估中，需要一直进行到V矩阵收敛才能进入到策略改进阶段。

1.2 策略改进

策略改进阶段输入为策略评估阶段的V矩阵，并根据V矩阵由贪心策略确定相应的策略并继续进行策略评估。以此进行反复迭代更新，最终策略会收敛至最佳策略。

2.价值迭代

价值迭代就相当于是在每一次V矩阵更新的时候，都会更新对应的策略。在下一次迭代更新矩阵V的时候就会使用新的策略，这样直到最后V收敛。这种方法可以避免策略迭代中多次迭代但V对应的策略却早已达到最佳策略的情况。

最后放上两个算法的伪代码供进行比对：

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

DQ_2023 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。