研究困难的问题之前先要解决简单的问题,本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题,它只包含一种情景,但可以说明强化学习中的一些基本方法。
1.多臂赌博机
多臂赌博机是指一类问题,这类问题重复的从 k 个行为(action)中选择一个,并获得一个奖励(reward),一次选择的时间周期称为一个时间步(time-step)。当选择并执行完一个行为后,得到一个奖励,我们称奖励的期望为这次行为的真实值(value)。在
如果我们知道每个行为的真实值,那么多臂赌博机的问题很容易就可以解决,但在大多数情况下,我们是不知道行为的具体值的,因此只能做近似。在 t 时刻用
在时刻 t ,我们可以利用已有的知识即行为的估计值进行行为的最优选择,这种操作称为 exploit,如果不选择当前的最优行为,我们称这种操作为 explore,explore操作能够提高对行为值估计的准确度。exploit操作能够最大化当前步的奖励,但explore操作可能会使长期的奖励更大。如何平衡exploit操作和explore操作是强化学习中的一个重要问题。
2.估计行为值的方法
对行为值的估计是为了更好的选择行为。行为的值为每次执行该行为所得奖励的期望。因此可以用