强化学习的探索和利用

xiao | yang

于 2022-01-27 09:20:34 发布

阅读量2k

点赞数

CC 4.0 BY-SA版权

文章标签：概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xi_xiyu/article/details/122687316

本文探讨了强化学习中的探索与利用问题，通过一个餐厅推荐菜品的场景解释了探索（获取反馈）和利用（选择最佳动作）的平衡。介绍了∈-greedy算法和置信区间上界（UCB）算法，以及强化学习在推荐系统和博弈游戏中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一．简述

在和环境不断交互的过程中，智能体在不同的状态下不停地探索，获取不同的动作的反馈。探索（Exploration）能够帮助智能体通过不断试验获得反馈，利用（Exploitation）是指利用已有的反馈信息选择最好的动作。因此如何平衡探索和利用是智能体在交互中不断学习的重要问题。

二． 什么是探索和利用?

场景假设：假设我们开了一家叫Surprise Me的饭馆，客人来了不用点餐，而是用算法来决定该做哪道菜。具体过程为：

（1）客人 user = 1,...,T 依次到达饭馆。

（2）给客人推荐一道菜，客人接受则留下吃饭（Reward=1），拒绝则离开（Reward=0）。

（3）记录选择接受的客人总数 total_reward。

为了由浅入深地解决这个问题，我们先做以下三个假设。

（a）同一道菜，有时候会做得好吃一些（概率＝p），有时候会难吃一些

（概率 = 1−p），但是并不知道概率p是多少，只能通过多次观测进行统计。

（b）不考虑个人口味的差异，即当菜做得好吃时，客人一定会留下

（Reward=1）；当菜不好吃时，客人一定会离开（Reward=0）。

（c）菜好吃或不好吃只有客人说的算，饭馆是事先不知道的。

探索阶段：通过多次观测推断出一道菜做得好吃的概率。如果一道菜已经推荐了k遍（获取了k次反馈），就可以算出菜做得好吃的概率

如果推荐的次数足够多，k足够大，那么会趋近于真实的菜做得好吃的概率p。

利用阶段：已知所有的菜做得好吃的概率，决定该如何推荐？如果每道菜都被推荐了很多遍，就可以计算出每道菜做得好吃的概率，于是只需推荐最大的那道菜。

探索和利用的平衡是一个经久不衰的问题。一是，探索的代价是要不停地拿用户去试菜，影响客户的体验，但有助于更加准确的估计每道菜好吃的概率；二是，利用会基于目前的估计拿出“最好的”菜来服务客户，但目前的估计可能是不准的（因为试吃的人还不够多）。<

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。