DDPG中的Ornstein-Uhlenbeck过程怎么理解

最新推荐文章于 2022-12-29 09:05:26 发布

young Danny

最新推荐文章于 2022-12-29 09:05:26 发布

阅读量1.9k

点赞数 1

分类专栏： RL代码学习文章标签：强化学习机器学习

原文链接：https://zhuanlan.zhihu.com/p/54670989

版权

RL代码学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

RL中的探索和利用

了解强化学习的同学都知道，强化学习中一个很重要的trade off是exploration(探索)和exploitation(利用)。exploitation指的是agent使用学到的经验做出最优的选择，exploration则指的是让agent放弃当前的经验，去冒风险看看外面的世界。EE同样也存在于像推荐系统这样的领域。

一个比较直观的例子是：假设你家附近有十个餐馆，到目前为止，你在八家餐馆吃过饭，知道这八家餐馆中最好吃的餐馆可以打8分，剩下的餐馆也许会遇到口味可以打10分的，也可能只有2分，如果为了吃到口味最好的餐馆，下一次吃饭你会去哪里？

如果你是以每次的期望得分最高，那可能就是一直吃8分那家餐厅；但是你永远突破不了8分，不知道会不会吃到更好吃的口味。所以只有去探索未知的餐厅，才有可能吃到更好吃的，同时带来的风险就是也有可能吃到不和口味的食物。

平衡探索和利用，最经典的方法叫做在这里插入图片描述策略，简单来说就是：在某一状态下，以概率选择任意一个动作，否则选择当前最优的动作。公式如下：

优点就是可以有一个超参数来平衡探索和利用，实现简单且可以探索所有的空间；其缺点是这个方法过于简单，探索效率低小，因为该策略使得agent”均匀“（非最优动作概率相等）、”缓慢“（在这里插入图片描述 )
一般很小）、”重复“（没有记忆，以前探索过的还是继续探索）地进行探索。
所以，还有很多其他的探索策略，这里不展开了。

Ornstein-Uhlenbeck Process

Ornstein-Uhlenbeck Process翻译为奥恩斯坦-乌伦贝克过程，简称OU过程，UO过程在时序上具备很好的相关性，可以使agent很好的探索具备动量属性的环境。
在这里插入图片描述

原文链接

young Danny

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
DDPG中的Ornstein-Uhlenbeck过程怎么理解

RL中的探索和利用了解强化学习的同学都知道，强化学习中一个很重要的trade off是exploration(探索)和exploitation(利用)。exploitation指的是agent使用学到的经验做出最优的选择，exploration则指的是让agent放弃当前的经验，去冒风险看看外面的世界。EE同样也存在于像推荐系统这样的领域。一个比较直观的例子是：假设你家附近有十个餐馆，到目前为止，你在八家餐馆吃过饭，知道这八家餐馆中最好吃的餐馆可以打8分，剩下的餐馆也许会遇到口味可以打10分的，也可能只
复制链接

扫一扫