强化学习
bineleanor
这个作者很懒,什么都没留下…
展开
-
强化学习(Reinforcement Learning)
https://www.zhihu.com/topic/20039099/intro强化学习强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行某个动作后,环境将会转换到一个新的状态,对于该新的状态环境给出奖励信号,随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。(智能体通过...原创 2019-02-26 15:18:04 · 4924 阅读 · 1 评论 -
强化学习的一些算法
参考资料:https://spinningup.openai.com/en/latest/spinningup/rl_intro2.强化学习算法的种类Model-Free vs Model-Based RL强化学习算法的一个重要分支是:智能体是否有能力从环境学习一个模型。Model-Based优点:希望智能体能够根据自己的思考做出计划,可以观测到可能的选择值,并在选择之间做出明确的决定...原创 2019-02-26 15:26:01 · 858 阅读 · 0 评论 -
Policy Optimization
参考资料:https://spinningup.openai.com/en/latest/spinningup/rl_intro3.htmlIntro to Policy Optimization本部分着重推导策略梯度的数学公式关于Policy Gradient的简单求导参数: πθ\pi_{\theta}πθ, 目标函数:最大化J(πθ)=Eτ∼πθ[R(τ)]J(\pi_{\thet...原创 2019-02-26 16:03:49 · 580 阅读 · 0 评论