EE问题相关资料摘记

1.问题定义

一个赌徒,要去摇老虎机,走进赌场一看,一排老虎机,外表一模一样,但是每个老虎机吐钱的概率可不一样,他不知道每个老虎机吐钱的概率分布是什么,那么每次该选择哪个老虎机可以做到最大化收益呢?这就是多臂赌博机问题(Multi-armed bandit problem, K-armed bandit problem, MAB)。
这个经典问题一个核心的权衡问题:我们是应该 探索(exploration) 去尝试新的可能性,还是应该 守成(exploitation) ,坚持目前已知的最好选择?在多臂老虎机问题中,探索意味着去玩还没玩过的老虎机,但这有可能使你花太多时间和金钱在收益不好的机器上;而守成意味着只玩目前为止给你收益最好的机器,但这又可能使你失去找到更好机器的机会。

2. 解决算法

  • 经典Bandit算法原理
    1. 朴素Bandit算法
    2. Epsilon-Greedy算法
    3. Thompson sampling算法
    4. UCB算法

参考:

  1. 推荐系统的EE问题及Bandit算法
  2. 推荐系统中的EE问题及解决问题的基本Bandit算法详细概述
  3. EE问题总结

相关知识点:

  1. 伯努利实验
  2. 二项分布、几何分布
  3. beta分布 beta分布介绍
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值