Chapter 2 多臂老虎机
k臂老虎机问题(2.1节):
You are faced repeatedly with a choice among k different options, or actions. After each choice you receive a numerical reward chosen from a stationary probability distribution that depends on the action you selected. Your objective is to maximize the expected total reward over some time period.
解决办法(2.2、2.7、2.8、2.9节)
Action-value Methods(e-greedy)
假设我们大概知道每个action的奖励的分布,我们有两种办法,一个是每次选择奖励最多的action及greedy method,另一种是大部分选择奖励最多的小部分去探索别的action的分布即 ϵ ϵ method。
一种简单的衡量每个行动的奖励的方法是,对这个action的奖励算平均值,一般可以暴力算,如下:
一种增量实现的方式(2.4节)只用到上一时刻的平均奖励和这一时刻的奖励:
(2.3节)对greedy-method和两个 ϵ ϵ