作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学习的基础知识,后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的,后面发现大家上CSDN主要是来提问的,就把很多拆分开来了(而且这样每天任务量也小一点哈哈哈哈偷懒大法)。但是我还是希望知识点能成系统,所以我在目录里面都好按章节系统地写的,而且在github上写成了书籍的形式,如果大家觉得有帮助,希望从头看的话欢迎关注我的github啊,谢谢大家!另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏,很早以前就和小伙伴们花了很多精力写的,如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!
Exploration和Exploitation
- Exploration: trying new things that might enable the agent to make better decisions in the future
- Exploitation: choosing actions that are expected to yield good reward given the past experience
- Often there may be an exploration-exploitation trade-off.(When to explore and when to do exploitation?)
- May have to sacrifice reward in order to explore & learn about potentially better policy
- 利用就是选择最高估计价值的动作而探索不是,短期来看利用是合理的,但是长期来看探索可能会带来总体收益的最大化,探索可以改善对非贪心动作的价值的估计。
- Exploration(探索):倾向于探索环境中新的信息,比如说去没吃过的饭店吃饭。
- Exploitation(利用):倾向于开发使用我们已经探测得到的最大reward,就像我们吃过海底捞了觉得海底捞好吃,以后就什么新的饭店也不去了就只吃海底捞。这么做相对来说确实是“安全”的,起码可以保证结果不至于太坏,但是可能我们永远就吃不到比海底捞更好吃的东西了。
Planning和learning
-
Learning problem:你的环境是未知的,你不能提前知道你的决策将对环境造成什么样的改变。我们需要通过不断地与环境交互,从而得知我们的action造成什么样的改变。
-
Planning Problem:我们的工作环境是已知的,我们被告知了整个环境的运作规则的详细信息。智能体能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。在这种情况下智能体不用实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。
感觉Planning和Learning就像是model-based和model-free?
Prediction和Control
-
预测(Prediction):给你一个policy,agent得到,这个policy能够得到多少reward,这是一个预估未来的过程。
-
控制(Control): 确定众多决策中,哪一个决策能够得到最多的奖励。
要强调的是,这两者的区别就在于,预测问题是给定一个policy,我们要确定他的value function是多少。而控制问题,是在没有policy的前提下,我们要确定最优的value function以及对应的决策方案。
实际上,这两者是递进的关系,在强化学习中,我们通过解决预测问题,进而解决控制问题:我们会通过先衡量某个策略的好坏再接着对这个策略进行优化。
上一篇:强化学习的学习之路(四)_2021-01-04:强化学习中Agent的分类
下一篇:强化学习的学习之路(六)_2021-01-06:强化学习中的On-policy和Off-policy、On-line和Off-line、Deterministic和Stochastic