bandit算法原理及Python实现

最新推荐文章于 2023-12-05 11:26:34 发布

z1185196212

最新推荐文章于 2023-12-05 11:26:34 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签： python 算法互联网数据

本文链接：https://blog.csdn.net/z1185196212/article/details/70568636

版权

Bandit算法是在线学习的一种，一切通过数据收集而得到的概率预估任务，都能通过Bandit系列算法来进行在线优化。这里的“在线”，指的不是互联网意义上的线上，而是只算法模型参数根据观察数据不断演变。
以多臂老虎机问题为例，首先我们假设每个臂是否产生收益，其背后有一个概率分布，产生收益的概率为p
我们不断地试验，去估计出一个置信度较高的概率p的概率分布就能近似解决这个问题了。
怎么能估计概率p的概率分布呢？答案是假设概率p的概率分布符合beta(wins, lose)分布，它有两个参数: wins, lose。
每个臂都维护一个beta分布的参数。每次试验后，选中一个臂，摇一下，有收益则该臂的wins增加1，否则该臂的lose增加1。
初始化beta参数胜率和败率都为0.5

prior_a = 1. # aka successes 
prior_b = 1. # aka failures
estimated_beta_params = np.zeros((K,2))
estimated_beta_params[:,0] += prior_a 
# allocating the initial c

最低0.47元/天解锁文章

z1185196212

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
bandit算法原理及Python实现

Bandit算法是在线学习的一种，一切通过数据收集而得到的概率预估任务，都能通过Bandit系列算法来进行在线优化。这里的“在线”，指的不是互联网意义上的线上，而是只算法模型参数根据观察数据不断演变。以多臂老虎机问题为例，首先我们假设每个臂是否产生收益，其背后有一个概率分布，产生收益的概率为p 我们不断地试验，去估计出一个置信度较高的概率p的概率分布就能近似解决这个问题了。怎么能估计概率p
复制链接

扫一扫

专栏目录