1.问题定义
一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
这个经典问题一个核心的权衡问题:我们是应该 探索(exploration) 去尝试新的可能性,还是应该 守成(exploitation) ,坚持目前已知的最好选择?在多臂老虎机问题中,探索意味着去玩还没玩过的老虎机,但这有可能使你花太多时间和金钱在收益不好的机器上;而守成意味着只玩目前为止给你收益最好的机器,但这又可能使你失去找到更好机器的机会。
2. 解决算法
- 经典Bandit算法原理
- 朴素Bandit算法
- Epsilon-Greedy算法
- Thompson sampling算法
- UCB算法
参考:
相关知识点: