DDPG中的Ornstein-Uhlenbeck过程怎么理解

RL中的探索和利用

了解强化学习的同学都知道,强化学习中一个很重要的trade off是exploration(探索)和exploitation(利用)。exploitation指的是agent使用学到的经验做出最优的选择,exploration则指的是让agent放弃当前的经验,去冒风险看看外面的世界。EE同样也存在于像推荐系统这样的领域。

一个比较直观的例子是:假设你家附近有十个餐馆,到目前为止,你在八家餐馆吃过饭,知道这八家餐馆中最好吃的餐馆可以打8分,剩下的餐馆也许会遇到口味可以打10分的,也可能只有2分,如果为了吃到口味最好的餐馆,下一次吃饭你会去哪里?

如果你是以每次的期望得分最高,那可能就是一直吃8分那家餐厅;但是你永远突破不了8分,不知道会不会吃到更好吃的口味。所以只有去探索未知的餐厅,才有可能吃到更好吃的,同时带来的风险就是也有可能吃到不和口味的食物。

平衡探索和利用,最经典的方法叫做在这里插入图片描述策略,简单来说就是:在某一状态下,以在这里插入图片描述 概率选择任意一个动作,否则选择当前最优的动作。公式如下:
在这里插入图片描述
优点就是可以有一个超参数来平衡探索和利用,实现简单且可以探索所有的空间;其缺点是这个方法过于简单,探索效率低小,因为该策略使得agent”均匀“(非最优动作概率相等)、”缓慢“(在这里插入图片描述)
一般很小)、”重复“(没有记忆,以前探索过的还是继续探索)地进行探索。
所以,还有很多其他的探索策略,这里不展开了。

Ornstein-Uhlenbeck Process

Ornstein-Uhlenbeck Process翻译为奥恩斯坦-乌伦贝克过程,简称OU过程,UO过程在时序上具备很好的相关性,可以使agent很好的探索具备动量属性的环境。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
原文链接

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值