强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二)：多臂赌博机(Multi-arm Bandits)

最新推荐文章于 2024-06-11 09:16:00 发布

「已注销」

最新推荐文章于 2024-06-11 09:16:00 发布

阅读量6.3k

点赞数 7

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y954877035/article/details/54429630

版权

研究困难的问题之前先要解决简单的问题，本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题，它只包含一种情景，但可以说明强化学习中的一些基本方法。

1.多臂赌博机

多臂赌博机是指一类问题，这类问题重复的从 $k$ 个行为(action)中选择一个，并获得一个奖励(reward)，一次选择的时间周期称为一个时间步(time-step)。当选择并执行完一个行为后，得到一个奖励，我们称奖励的期望为这次行为的真实值(value)。在 $t$ 时刻选择的行为用 $A_{t}$ 表示，对应的奖励用 $R_{t}$ 表示，对于行为 $a$ ，其真实值为 $q_{*}(a)$ ,表示行为 $a$ 的期望奖励，即：

q∗(a)=E[Rt|At=a](1) $q_{*}(a)=\mathbb{E}[R_{t}|A_{t}=a] \tag{1}$
如果我们知道每个行为的真实值，那么多臂赌博机的问题很容易就可以解决，但在大多数情况下，我们是不知道行为的具体值的，因此只能做近似。在

t $t$ 时刻用

Qt(a) $Q_{t}(a)$ 作为

q∗(a) $q_{*}(a)$ 的 估计值，即

Qt(a)≈q∗(a) $Q_{t}(a)\thickapprox q_{*}(a)$ .
在时刻

t $t$ ，我们可以利用已有的知识即行为的估计值进行行为的最优选择，这种操作称为 exploit，如果不选择当前的最优行为，我们称这种操作为 explore，explore操作能够提高对行为值估计的准确度。exploit操作能够最大化当前步的奖励，但explore操作可能会使长期的奖励更大。如何平衡exploit操作和explore操作是强化学习中的一个重要问题。

2.估计行为值的方法

对行为值的估计是为了更好的选择行为。行为的值为每次执行该行为所得奖励的期望。因此可以用 $t$ 时刻前行为已得到的奖励作为行为值的估计，即：

Qt(a)=t时刻前a行为的奖励之和t时刻前a行为出现的次数=∑t−1i=1R<

最低0.47元/天解锁文章

「已注销」

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
10
评论
强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二)：多臂赌博机(Multi-arm Bandits)

研究困难的问题之前先要解决简单的问题，本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题，它只包含一种情景，但可以说明强化学习中的一些基本方法。1.多臂赌博机多臂赌博机是指一类问题，这类问题重复的从 kk 个行为(action)中选择一个，并获得一个奖励(reward)，一次选择的时间周期称为一个时间步(time-step)。当选择并执行完一个行为后，得到一个奖励，我们称奖励的期望为这次
复制链接

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。