我们会遇到很多选择的场景,如:上哪所大学,学什么专业,去哪家公司,等等。这些选择问题都会让选择困难症患者头大。那么,有什么科学的办法来解决这些问题呢?答案是:有!而且是非常科学的办法,那就是多臂老虎机(bandit)算法。bandit算法最早来源于劳苦大众喜闻乐见的娱乐活动:赌博学,它要解决的问题是这样的:
一个赌徒要去摇老虎机,走进赌场一看,妈呀,一排老虎机,外表一毛一样,没啥区别。但是每个老虎机吐钱的概率是不一样的,然而赌场主是不会让你知道每个老虎机吐钱的概率分布是什么?此时,对于一个小白赌徒,如何才能最大化自身的利益?这就是大名鼎鼎的多臂老虎机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)
在多臂老虎机问题中,每一次选择 k 臂中的一臂(行为)会得到一个期望报酬,我们称之为这个行为的价值。我们把