强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二):多臂赌博机(Multi-arm Bandits)

  研究困难的问题之前先要解决简单的问题,本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题,它只包含一种情景,但可以说明强化学习中的一些基本方法。

1.多臂赌博机

 多臂赌博机是指一类问题,这类问题重复的从 k 个行为(action)中选择一个,并获得一个奖励(reward),一次选择的时间周期称为一个时间步(time-step)。当选择并执行完一个行为后,得到一个奖励,我们称奖励的期望为这次行为的真实值(value)。在 t 时刻选择的行为用 At 表示,对应的奖励用 Rt 表示,对于行为 a ,其真实值为 q(a) ,表示行为 a 的期望奖励,即:

q(a)=E[Rt|At=a](1)
 如果我们知道每个行为的真实值,那么多臂赌博机的问题很容易就可以解决,但在大多数情况下,我们是不知道行为的具体值的,因此只能做近似。在 t 时刻用 Qt(a) 作为 q(a) 估计值,即 Qt(a)q(a) .
  在时刻 t ,我们可以利用已有的知识即行为的估计值进行行为的最优选择,这种操作称为 exploit,如果不选择当前的最优行为,我们称这种操作为 explore,explore操作能够提高对行为值估计的准确度。exploit操作能够最大化当前步的奖励,但explore操作可能会使长期的奖励更大。如何平衡exploit操作和explore操作是强化学习中的一个重要问题。

2.估计行为值的方法

 对行为值的估计是为了更好的选择行为。行为的值为每次执行该行为所得奖励的期望。因此可以用 t 时刻前行为已得到的奖励作为行为值的估计,即:

Qt(a)=tata=t1i=1R<
  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值