强化学习2

大力力无穷

于 2022-07-13 23:30:30 发布

阅读量93

点赞数

分类专栏：知识总结文章标签：笔记 python 强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengdanli/article/details/125774907

版权

知识总结专栏收录该内容

6 篇文章 1 订阅

订阅专栏

马尔可夫过程（MP) 马尔可夫奖励过程（MRP）
只取决于现在：马尔可夫
Horizon:一个回合的长度（每个回合最大的时间步数）由有限个步数决定
Return：（回报）奖励的逐步叠加
需要折扣因子的原因：有些马尔可夫过程带环，没有终结（避免无穷）
把这个不确定性表示出来，希望尽可能得到模型，而不是在未来某一点得到奖励
希望立即达到奖励
超参数：Discount factor
贝尔曼方程
蒙特卡曼
动态规划：当最后更新状态跟上次状态差别不大的时候停止（Bootstrapping)
.断续器
状态-价值函数

大力力无穷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习2

强化学习
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。