强化学习
文章平均质量分 94
强化学习
隼灏
这个作者很懒,什么都没留下…
展开
-
贝尔曼公式
从最开始从第0个 我可以随便猜一个vπ是等于什么,比如说全都是 0 ,然后我通过这个式子,把vk代到右边,左边我就可以计算出来v1,然后我把v1再代到右边,我就可以得到左边的v2 ,我再把v2代到右边,我就可以得到左边的v3 ,这样一直下去,我就会得到这样一个序列{v0,v1,v2....},实际上我们可以证明当k趋向于无穷的时候,vk就收敛到了vπ ,这个vπ就是真实的state value。对于第二个式子,p(s'|s)表示从当前状态s出发,有多个选择,可以跳到不同的s',跳到不同s'的概率。原创 2024-07-09 17:47:56 · 1400 阅读 · 0 评论 -
强化学习基础概念
第1课-基本概念(State,action,policy等)_哔哩哔哩_bilibili第1课-基本概念(Reward,return,MDP等)_哔哩哔哩_bilibiliAccessible 表示可以进入,用白色表示Forbidden 表示不可进入,用黄色表示Target area 表示希望进入的这个领域当中机器人只能在相邻的网格之间移动,不能斜方向移动。原创 2024-07-08 20:13:21 · 1533 阅读 · 0 评论