强化学习里面Bellman Equation的理解

最新推荐文章于 2024-03-20 11:31:07 发布

VIP文章 chamomoe

最新推荐文章于 2024-03-20 11:31:07 发布

阅读量4.8k

点赞数 4

分类专栏：深度学习

本文链接：https://blog.csdn.net/ziliwangmoe/article/details/93376597

版权

首先要明白return和reward的区别。reward是指在当前状态s下，进行a操作。环境反馈的奖励。而return是指在当前状态s下，后续连续进行无限个a操作的奖励的和。所以强化学习的目的是选择一个a，能使后续一系列操作得到的奖励最大。
再说Q函数，Q函数就是就是当前状态s和当前操作a到return的函数。注意不是到reward函数。
为了理解Bellman Equation函数，假设Q函数只关当前的reward最大就行。那么一个估计Q函数的方法就是：直接把系统返回的reward加到之前的Q函数上。
1. 比如当前Q函数为不管什么操作都是1。然后通过一次操作，环境反馈的是，操作1的reward是0，操作2的reward是1。把这两个值加到之前的Q函数上后得到的Q函数是：操作1为1，操作2为2。。
2. 通过大量的数据，最终可以得到一个有用的Q函数。其实玩游戏的过程就是对一个未知数据分布进行sample（不同环境不同操作对应的reward组成的sample）。得到sample后，训练网络的方法就和普通的神经网络一样了。
但如果要用Q来预测return的话。基于Bellman Equation。我们不仅要加上当前环境反馈的reward，还要加上在选择了这个a操作后的到的环境中，不管采用什么操作，能得到的最大的reward（这个就是值函数）。这就有点不经要考虑当前的最优，还要考虑为了的最优的感觉。使用Bellman Equation后，我们不需要考虑所有为了的情况，而只用考虑下一个时刻就够了。
这里举一个具体的例子说明Bellman Equation是怎么之使用下一个时刻的数据来实现所有未来最优的。
1. 假如一个机器人在一个空的房间里面移动，只要碰墙就reward减1。其他位置没有任何reward

最低0.47元/天解锁文章

chamomoe

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
强化学习里面Bellman Equation的理解

首先要明白return和reward的区别。reward是指在当前状态s下，进行a操作。环境反馈的奖励。而return是指在当前状态s下，后续连续进行无限个a操作的奖励的和。所以强化学习的目的是选择一个a，能使后续一系列操作得到的奖励最大。再说Q函数，Q函数就是就是当前状态s和当前操作a到return的函数。注意不是到reward函数。为了理解Bellman Equation函数，假设Q函...
复制链接

扫一扫