强化学习的学习之路(五)_2021-01-05:强化学习中的Exploration和Exploitation、Planning和Learning、Prediction和Control

作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学习的基础知识,后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的,后面发现大家上CSDN主要是来提问的,就把很多拆分开来了(而且这样每天任务量也小一点哈哈哈哈偷懒大法)。但是我还是希望知识点能成系统,所以我在目录里面都好按章节系统地写的,而且在github上写成了书籍的形式,如果大家觉得有帮助,希望从头看的话欢迎关注我的github啊,谢谢大家!另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏,很早以前就和小伙伴们花了很多精力写的,如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!

Exploration和Exploitation
  • Exploration: trying new things that might enable the agent to make better decisions in the future
  • Exploitation: choosing actions that are expected to yield good reward given the past experience
  • Often there may be an exploration-exploitation trade-off.(When to explore and when to do exploitation?)
  • May have to sacrifice reward in order to explore & learn about potentially better policy
  • 利用就是选择最高估计价值的动作而探索不是,短期来看利用是合理的,但是长期来看探索可能会带来总体收益的最大化,探索可以改善对非贪心动作的价值的估计。
  • Exploration(探索):倾向于探索环境中新的信息,比如说去没吃过的饭店吃饭。
  • Exploitation(利用):倾向于开发使用我们已经探测得到的最大reward,就像我们吃过海底捞了觉得海底捞好吃,以后就什么新的饭店也不去了就只吃海底捞。这么做相对来说确实是“安全”的,起码可以保证结果不至于太坏,但是可能我们永远就吃不到比海底捞更好吃的东西了。
Planning和learning
  • Learning problem:你的环境是未知的,你不能提前知道你的决策将对环境造成什么样的改变。我们需要通过不断地与环境交互,从而得知我们的action造成什么样的改变。

  • Planning Problem:我们的工作环境是已知的,我们被告知了整个环境的运作规则的详细信息。智能体能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。在这种情况下智能体不用实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。

    感觉Planning和Learning就像是model-based和model-free?

Prediction和Control
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值