强化学习里面Bellman Equation的理解

  1. 首先要明白return和reward的区别。reward是指在当前状态s下,进行a操作。环境反馈的奖励。而return是指在当前状态s下,后续连续进行无限个a操作的奖励的和。所以强化学习的目的是选择一个a,能使后续一系列操作得到的奖励最大。
  2. 再说Q函数,Q函数就是就是当前状态s和当前操作a到return的函数。注意不是到reward函数。
  3. 为了理解Bellman Equation函数,假设Q函数只关当前的reward最大就行。那么一个估计Q函数的方法就是:直接把系统返回的reward加到之前的Q函数上。
    1. 比如当前Q函数为不管什么操作都是1。然后通过一次操作,环境反馈的是,操作1的reward是0,操作2的reward是1。把这两个值加到之前的Q函数上后得到的Q函数是:操作1为1,操作2为2。。
    2. 通过大量的数据,最终可以得到一个有用的Q函数。其实玩游戏的过程就是对一个未知数据分布进行sample(不同环境不同操作对应的reward组成的sample)。得到sample后,训练网络的方法就和普通的神经网络一样了。
  4. 但如果要用Q来预测return的话。基于Bellman Equation。我们不仅要加上当前环境反馈的reward,还要加上在选择了这个a操作后的到的环境中,不管采用什么操作,能得到的最大的reward(这个就是值函数)。这就有点不经要考虑当前的最优,还要考虑为了的最优的感觉。使用Bellman Equation后,我们不需要考虑所有为了的情况,而只用考虑下一个时刻就够了。
  5. 这里举一个具体的例子说明Bellman Equation是怎么之使用下一个时刻的数据来实现所有未来最优的。
    1. 假如一个机器人在一个空的房间里面移动,只要碰墙就reward减1。其他位置没有任何reward
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值