前言
笔者毕设研究的是Bandit问题,因此最近在学习相关的内容,想记录下学习的笔记主要涉及算法理论相关的知识,设计算法流程和公式推导。不太清楚Bandit问题的小伙伴可以阅读下面的资料作为入门。
https://zhuanlan.zhihu.com/p/38459055
本节笔者将给大家介绍explore-then-commit算法。
Explore-Then-Commit 算法
算法流程
这个公式的物理意义是,前mk轮根据顺序选择动作,成为探索阶段。mk轮以后选择平均奖励最大的那个动作。
平均奖励由这个公式给出:
定理6.1 ETC遗憾上界
其中m表示1到k个动作至少执行的次数。
证明过程
不失一般性地,我们假设第一个动作为最优动作,根据遗憾分解引理,有:
在前m*k轮,ETC策略是确定的,每个动作都被选择m次。因此每个动作被选择的次数期望是,他一定小于等于每次都选择最优动作的概率:
物理意义是前m*k轮确定被选择了m次,mk+1到n轮的次数则由轮数乘以该动作被选择的概率决定。
因为我们不失一般性地将第一个动作假设为最优动作,结合第i个动作的次优间隙的定义可以得到如下不等式:
之后为了下面用霍夫定界放缩,我们将上式变形:
根据假设我们知道奖励是1-次高斯的,根据下面不等式:
可以得到:
最后结合Rn的定义式能够得到:
(补:最后右式漏了delta_i)
证明完毕
总结
ETC算法是在线学习Bandit问题的一个相对简单的算法,本文小结介绍explore-then-commit算法,并对其遗憾上界进行推导。
参考资料
《Bandit Algorithms》一本专门研究Bandit问题的书籍。