多臂老虎机(Multi-armed bandit problem)

最新推荐文章于 2024-06-11 09:16:00 发布

JemeYufeng

最新推荐文章于 2024-06-11 09:16:00 发布

阅读量5.7k

点赞数 2

分类专栏：机器学习文章标签：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yfzhandd1989/article/details/79082414

版权

我们会遇到很多选择的场景，如：上哪所大学，学什么专业，去哪家公司，等等。这些选择问题都会让选择困难症患者头大。那么，有什么科学的办法来解决这些问题呢？答案是：有！而且是非常科学的办法，那就是多臂老虎机(bandit)算法。bandit算法最早来源于劳苦大众喜闻乐见的娱乐活动：赌博学，它要解决的问题是这样的：

一个赌徒要去摇老虎机，走进赌场一看，妈呀，一排老虎机，外表一毛一样，没啥区别。但是每个老虎机吐钱的概率是不一样的，然而赌场主是不会让你知道每个老虎机吐钱的概率分布是什么？此时，对于一个小白赌徒，如何才能最大化自身的利益？这就是大名鼎鼎的多臂老虎机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)

在多臂老虎机问题中，每一次选择 $k$ 臂中的一臂（行为）会得到一个期望报酬，我们称之为这个行为的价值。我们把 $t$ 时刻的选择行为称之为 At

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
多臂老虎机(Multi-armed bandit problem)

我们会遇到很多选择的场景，如：上哪所大学，学什么专业，去哪家公司，等等。这些选择问题都会让选择困难症患者头大。那么，有什么科学的办法来解决这些问题呢？答案是：有！而且是非常科学的办法，那就是多臂老虎机(bandit)算法。bandit算法最早来源于劳苦大众喜闻乐见的娱乐活动：赌博学，它要解决的问题是这样的：一个赌徒要去摇老虎机，走进赌场一看，妈呀，一排老虎机，外表一毛一样，没啥区别。但是每
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。