一. 简述
在和环境不断交互的过程中,智能体在不同的状态下不停地探索,获取不同的动作的反馈。探索(Exploration)能够帮助智能体通过不断试验获得反馈,利用(Exploitation)是指利用已有的反馈信息选择最好的动作。因此如何平衡探索和利用是智能体在交互中不断学习的重要问题。
二. 什么是探索和利用?
场景假设:假设我们开了一家叫Surprise Me的饭馆,客人来了不用点餐,而是用算法来决定该做哪道菜。具体过程为:
(1)客人 user = 1,...,T 依次到达饭馆。
(2)给客人推荐一道菜,客人接受则留下吃饭(Reward=1),拒绝则离开(Reward=0)。
(3)记录选择接受的客人总数 total_reward。
为了由浅入深地解决这个问题,我们先做以下三个假设。
(a)同一道菜,有时候会做得好吃一些(概率=p),有时候会难吃一些
(概率 = 1−p),但是并不知道概率p是多少,只能通过多次观测进行统计。
(b)不考虑个人口味的差异,即当菜做得好吃时,客人一定会留下
(Reward=1);当菜不好吃时,客人一定会离开(Reward=0)。
(c)菜好吃或不好吃只