RL中的探索和利用
了解强化学习的同学都知道,强化学习中一个很重要的trade off是exploration(探索)和exploitation(利用)。exploitation指的是agent使用学到的经验做出最优的选择,exploration则指的是让agent放弃当前的经验,去冒风险看看外面的世界。EE同样也存在于像推荐系统这样的领域。
一个比较直观的例子是:假设你家附近有十个餐馆,到目前为止,你在八家餐馆吃过饭,知道这八家餐馆中最好吃的餐馆可以打8分,剩下的餐馆也许会遇到口味可以打10分的,也可能只有2分,如果为了吃到口味最好的餐馆,下一次吃饭你会去哪里?
如果你是以每次的期望得分最高,那可能就是一直吃8分那家餐厅;但是你永远突破不了8分,不知道会不会吃到更好吃的口味。所以只有去探索未知的餐厅,才有可能吃到更好吃的,同时带来的风险就是也有可能吃到不和口味的食物。
平衡探索和利用,最经典的方法叫做策略,简单来说就是:在某一状态下,以 概率选择任意一个动作,否则选择当前最优的动作。公式如下:
优点就是可以有一个超参数来平衡探索和利用,实现简单且可以探索所有的空间;其缺点是这个方法过于简单,探索效率低小,因为该策略使得agent”均匀“(非最优动作概率相等)、”缓慢“()
一般很小)、”重复“(没有记忆,以前探索过的还是继续探索)地进行探索。
所以,还有很多其他的探索策略,这里不展开了。
Ornstein-Uhlenbeck Process
Ornstein-Uhlenbeck Process翻译为奥恩斯坦-乌伦贝克过程,简称OU过程,UO过程在时序上具备很好的相关性,可以使agent很好的探索具备动量属性的环境。
原文链接