【强化学习】动态规划算法详解

xingxinbg

已于 2024-10-12 22:27:58 修改

阅读量440

点赞数 3

文章标签：算法动态规划

于 2024-10-12 22:25:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xingxinbg/article/details/142883870

版权

动态规划思想：用后续状态估算当前状态，即用上一轮的数据估算下一轮的数据。

基于动态规划的强化学习算法主要有两种：一是策略迭代，二是价值迭代。

一、策略迭代

策略迭代由两部分组成，策略评估和策略提升。策略评估用于评估给定策略下的状态价值函数，策略提升用于在给定状态函数下优化策略。

1. 策略评估

目标：给定策略下，通过初始样本和环境进行交互，推测该策略对应的每一个状态的价值函数。

条件：状态转移概率已知，奖励已知

价值函数更新：已知动作空间、状态转移概率、各状态的奖励，随机初始化一个策略、初始各个状态的价值函数为0，根据策略基于上述环境遍历计算一轮各状态的价值函数。然后更新后的价值状态函数和原来的差异不大，那么直接估算出状态价值函数；否则继续拿更新后的状态价值函数做新一轮的更新。其中，基于下式我们可以对状态价值函数进行更新，也就是可以用上一轮的状态价值函数去重新计算新的状态价值函数。

2. 策略提升

目标：已知状态价值函数，基于已知的策略，求解出一个较优的确定性策略（非随机策略），在该确定性策略下个各状态能够获得更高的状态价值函数

条件：状态价值函数已知，状态转移矩阵已知，奖励已知

策略提升：由于状态价值函数已知，我们可以推导出每个状态下各个动作的动作价值函数。所以这个较优的确定性策略就是，在每个状态下执行动作价值函数最大的那个动作。

3. 策略迭代

策略迭代的思想是，随机初始化一个策略，通过策略评估确定基于该策略的状态价值函数，然后基于该状态价值函数进行策略提升求解出更优的策略，再基于这个更优的策略求解新的状态价值函数...直到求解出的新策略和旧策略相同，表示收敛。

二、价值迭代

策略迭代的缺点：多次策略评估收敛性太慢，计算量大

价值迭代的思路：将策略提升融入策略评估中，即在策略评估中没有固定的策略，在每一轮的价值函数迭代过程，也都是策略向更优更新过程，直到价值函数收敛表示策略已达到最优，最后由价值函数倒退策略函数即可。

每个价值函数迭代过程如下函数更新，即用旧一轮的价值函数评估更优策略下的新价值函数

博客等级

码龄6年

23
原创

129
点赞

121
收藏

163
粉丝

关注

私信

热门文章

最新评论

NS3-DCE 如何链接外部FFmpeg库
qq_48472004: 请问博主具体是怎么解决的吗，我现在也需要在NS3中使用FFMPEG，求教求教
Zotero 同步OneDrive
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题“Zotero 同步OneDrive”听起来非常有趣。您的创作持续不断，真是令人钦佩。在这篇博客中，您介绍了如何将Zotero与OneDrive同步，这对许多用户来说将是非常有用的。接下来，我希望您可以继续分享更多关于Zotero和其他云存储平台的同步方法，或是展示如何最大化利用Zotero进行学术研究。感谢您对读者们的努力付出，期待您下一步的创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
NS3-DCE 如何链接外部FFmpeg库
CSDN-Ada助手: 非常棒的博客！很高兴看到你在探索并分享关于NS3-DCE和外部FFmpeg库的知识。你的问题很常见，不用担心。如果wscript脚本找不到ffmpeg库的函数，可以尝试以下解决方法： 1. 确保你已经正确安装了FFmpeg库以及相关的头文件。可以通过在终端中运行"sudo apt-get install ffmpeg"来安装。 2. 确认你的wscript脚本中已经正确指定了FFmpeg库的路径。你可以尝试在wscript中添加以下代码来指定库的路径：env.append_value('LIBPATH', ['/usr/lib/x86_64-linux-gnu'])。 3. 如果上述方法还是不能解决问题，你可以尝试使用其他的编译选项，例如在wscript中添加"-lffmpeg"或"-lavcodec"等选项。这些选项可以告诉编译器在链接时使用FFmpeg库。希望以上方法对你有所帮助。继续保持创作，并分享更多关于NS3-DCE和FFmpeg库的经验和技巧，这将会对其他人也是非常有帮助的！此外，你还可以学习一些和该博文相关，但是没有在标题和摘要中出现过的扩展知识和技能，例如如何在NS3-DCE中使用其他外部库、如何处理音视频数据等。谦虚地说，我们都是在不断学习的过程中，相互交流和分享才能让我们进步！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
NS3-DCE 如何链接外部FFmpeg库
xingxinbg: 已解决：NS3-DCE链接外部库还是不会配置，但是找到了其他的解决办法。将原有的ffmpeg库静态编译到原有的二进制文件，就可以在NS-3DCE中跑了。
JM编码器配置
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/616370098。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。