【Bandit Algorithms学习笔记】Explore-Then-Commit算法

TommyGong08

已于 2022-02-26 18:48:07 修改

阅读量2.2k

点赞数 3

分类专栏：人工智能机器学习文章标签：算法

于 2022-01-09 21:22:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43794327/article/details/122399331

版权

机器学习同时被 2 个专栏收录

14 篇文章

订阅专栏

11 篇文章

订阅专栏

文章目录

前言
Explore-Then-Commit 算法
总结
参考资料

前言

笔者毕设研究的是Bandit问题，因此最近在学习相关的内容，想记录下学习的笔记主要涉及算法理论相关的知识，设计算法流程和公式推导。不太清楚Bandit问题的小伙伴可以阅读下面的资料作为入门。

https://zhuanlan.zhihu.com/p/38459055

https://lilianweng.github.io/lil-log/2018/01/23/the-multi-armed-bandit-problem-and-its-solutions.html

本节笔者将给大家介绍explore-then-commit算法。

Explore-Then-Commit 算法

算法流程

在这里插入图片描述

这个公式的物理意义是，前mk轮根据顺序选择动作，成为探索阶段。mk轮以后选择平均奖励最大的那个动作。
平均奖励由这个公式给出：
在这里插入图片描述

定理6.1 ETC遗憾上界

其中m表示1到k个动作至少执行的次数。
###

证明过程

不失一般性地，我们假设第一个动作为最优动作，根据遗憾分解引理，有：
在这里插入图片描述

在前m*k轮，ETC策略是确定的，每个动作都被选择m次。因此每个动作被选择的次数期望是，他一定小于等于每次都选择最优动作的概率：
在这里插入图片描述

物理意义是前m*k轮确定被选择了m次，mk+1到n轮的次数则由轮数乘以该动作被选择的概率决定。
因为我们不失一般性地将第一个动作假设为最优动作，结合第i个动作的次优间隙的定义可以得到如下不等式：
在这里插入图片描述

之后为了下面用霍夫定界放缩，我们将上式变形：
在这里插入图片描述
根据假设我们知道奖励是1-次高斯的，根据下面不等式：

可以得到：

最后结合Rn的定义式能够得到：
在这里插入图片描述
（补：最后右式漏了delta_i)
证明完毕

总结

ETC算法是在线学习Bandit问题的一个相对简单的算法，本文小结介绍explore-then-commit算法，并对其遗憾上界进行推导。

参考资料

《Bandit Algorithms》一本专门研究Bandit问题的书籍。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。