多臂老虎机(Multi-armed bandit problem)

我们会遇到很多选择的场景,如:上哪所大学,学什么专业,去哪家公司,等等。这些选择问题都会让选择困难症患者头大。那么,有什么科学的办法来解决这些问题呢?答案是:有!而且是非常科学的办法,那就是多臂老虎机(bandit)算法。bandit算法最早来源于劳苦大众喜闻乐见的娱乐活动:赌博学,它要解决的问题是这样的:


一个赌徒要去摇老虎机,走进赌场一看,妈呀,一排老虎机,外表一毛一样,没啥区别。但是每个老虎机吐钱的概率是不一样的,然而赌场主是不会让你知道每个老虎机吐钱的概率分布是什么?此时,对于一个小白赌徒,如何才能最大化自身的利益?这就是大名鼎鼎的多臂老虎机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)


在多臂老虎机问题中,每一次选择 k 臂中的一臂(行为)会得到一个期望报酬,我们称之为这个行为的价值。我们把 t 时刻的选择行为称之为 At

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值