- 首先要明白return和reward的区别。reward是指在当前状态s下,进行a操作。环境反馈的奖励。而return是指在当前状态s下,后续连续进行无限个a操作的奖励的和。所以强化学习的目的是选择一个a,能使后续一系列操作得到的奖励最大。
- 再说Q函数,Q函数就是就是当前状态s和当前操作a到return的函数。注意不是到reward函数。
- 为了理解Bellman Equation函数,假设Q函数只关当前的reward最大就行。那么一个估计Q函数的方法就是:直接把系统返回的reward加到之前的Q函数上。
- 比如当前Q函数为不管什么操作都是1。然后通过一次操作,环境反馈的是,操作1的reward是0,操作2的reward是1。把这两个值加到之前的Q函数上后得到的Q函数是:操作1为1,操作2为2。。
- 通过大量的数据,最终可以得到一个有用的Q函数。其实玩游戏的过程就是对一个未知数据分布进行sample(不同环境不同操作对应的reward组成的sample)。得到sample后,训练网络的方法就和普通的神经网络一样了。
- 但如果要用Q来预测return的话。基于Bellman Equation。我们不仅要加上当前环境反馈的reward,还要加上在选择了这个a操作后的到的环境中,不管采用什么操作,能得到的最大的reward(这个就是值函数)。这就有点不经要考虑当前的最优,还要考虑为了的最优的感觉。使用Bellman Equation后,我们不需要考虑所有为了的情况,而只用考虑下一个时刻就够了。
- 这里举一个具体的例子说明Bellman Equation是怎么之使用下一个时刻的数据来实现所有未来最优的。
- 假如一个机器人在一个空的房间里面移动,只要碰墙就reward减1。其他位置没有任何reward
强化学习里面Bellman Equation的理解
最新推荐文章于 2024-03-20 11:31:07 发布