蒙特卡洛方法

2000_愚人之旅

已于 2024-04-13 23:10:51 修改

阅读量491

点赞数 17

文章标签：人工智能

于 2024-04-13 23:06:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47175797/article/details/137728102

版权

蒙特卡洛方法

蒙特卡洛预测
- 考虑在给定策略的前提下，使用蒙特卡洛算法学习其状态价值函数
- 在每一幕中，从最终状态前推，更新每个状态的回报值
- 对每个状态的回报值求均值，获得状态的价值
动作价值的蒙特卡洛估计
- 无法获得环境模型，计算动作价值相较于计算状态价值更为有意义
- 目标是获取在特定状态下，特定动作的价值
- 存在矛盾：在特定策略π下，不能保证所有状态及动作二元组都被遍历，可能会导致局部最优。为解决这个问题，使用方法有：
- - 试探性出发，以所有状态+动作的组合作为起点出发，但这种方法在实际中实现较为困难
  - 只考虑在每个状态下都有非零概率被选中的随机策略
蒙特卡洛控制
- 目标是获得近似最优策略
- 基本思想是使用GPI（广义策略迭代）对随机策略进行优化，首先对动作价值进行估计，再利用贪心策略进行策略优化。基于两个关键假设
  - 试探性出发假设
  - 进行策略评估时有无限多幕的样本序列进行试探
- 针对假设二的去除
  - 不再要求在策略改进前完成策略评估，进行价值迭代
没有试探性出发的蒙特卡洛控制
- 需要智能体不断选择所有可能的动作
- 可使用两种策略
  - 同轨策略：生成采样序列和实际决策待评估和改进的策略是相同的
  - 离轨策略：上述两种策略不同
- 对于同轨策略，重点是策略的随机性，在状态下任意动作出现概率均大于0，但最终会收敛到特定策略
基于重要度采样的离轨策略
- 重要度采样：

- 对于目标策略π和行动策略b，对策略π下状态s的价值估计，可以用下式表示：

- 这里采用两种方法进行预测，普通重要度采样以及加权平均重要度采样：

2000_愚人之旅

关注

17
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

2000_愚人之旅 CSDN认证博客专家 CSDN认证企业博客

码龄4年

5: 原创

147万+: 周排名

18万+: 总排名

1823: 访问

: 等级

103: 积分

27: 粉丝

52: 获赞

4: 评论

18: 收藏

私信

关注

热门文章

最新评论

深度学习计算
CSDN-Ada助手: 恭喜作者发布了新的博客文章《深度学习计算》，文章内容深入浅出，让读者受益良多。希望作者能继续保持创作的热情和精神，不断探索深度学习领域的更多知识和技术。建议作者可以进一步探讨深度学习计算的实际应用场景，或者分享一些实践经验，让读者更加深入地了解这一领域。期待作者的下一篇精彩文章！愿您在创作的道路上越走越远，不断进步！
策略梯度法
CSDN-Ada助手: 恭喜用户写了第四篇博客“策略梯度法”！持续创作是非常重要的，能够帮助自己深入学习和理解知识，也能够分享给他人，希望您能够继续坚持下去。下一步建议可以尝试结合实例或案例来说明策略梯度法的应用，这样可以让读者更容易理解和接受。期待您更多精彩的创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
基于函数逼近的同轨策略预测
CSDN-Ada助手: 恭喜作者发布了第三篇博客“基于函数逼近的同轨策略预测”，内容涉及到函数逼近在同轨策略预测中的应用，让读者对这一领域有了更深入的了解。希望作者能够继续保持创作的激情和勇气，不断探索新领域，为读者带来更多有价值的内容。或许在下一篇博客中，可以深入探讨函数逼近的优缺点，或者结合实际案例进行分析，让读者更加直观地感受到其应用的实际效果。期待作者的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
时序差分学习
CSDN-Ada助手: 太棒了！你的第二篇博客内容紧扣“时序差分学习”，看来你对这个主题有很深入的了解。希望你能继续保持创作的热情，分享更多有价值的知识给大家。除了时序差分学习，你或许可以进一步探讨一下强化学习中的其他算法，比如Q-learning、SARSA等，这些也是很有意思的研究方向。期待看到你更多的精彩内容，加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
蒙特卡洛方法
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。