![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DRL
yq313210
这个作者很懒,什么都没留下…
展开
-
深度强化学习task05
1. 稀疏奖励 如果环境中的 reward 非常 sparse,reinforcement learning 的问题就会变得非常的困难,但是人类可以在非常 sparse 的 reward 上面去学习。我们的人生通常多数的时候,我们就只是活在那里,都没有得到什么 reward 或是 penalty。但是,人还是可以采取各种各式各样的行为。所以,一个真正厉害的 AI 应该能够在 sparse reward 的情况下也学到要怎么跟这个环境互动。 解决这个问题可从以下3个方向开始: 第一个方向是 reward s原创 2020-11-05 19:07:05 · 251 阅读 · 0 评论 -
深度强化学习task03
1. Q-learning **Q-learning **是value-based 的方法。在value-based 的方法里面,我们 learn 的不是 policy,我们要 learn 的是一个critic 。 Critic 并不直接采取行为,它想要做的事情是评价现在的行为有多好或是有多不好。假设有一个actor π ,critic 就是来评价这个 actor 的 policy π 好还是不好,即 Policy Evaluation(策略评估)。 举例来说,有一种 critic叫做 state val原创 2020-11-03 19:02:17 · 824 阅读 · 0 评论 -
强化学习-task03
Policy Gradient 在 reinforcement learning 中有 3 个components,一个actor,一个environment,一个reward function。 让机器玩 video game 时, actor 做的事情就是去操控游戏的摇杆, 比如说向左、向右、开火等操作; environment 就是游戏的主机, 负责控制游戏的画面负责控制说,怪物要怎么移动, 你现在要看到什么画面等等; reward function 就是当你做什么事情,发生什么状况的时候,你可以得到原创 2020-10-29 22:34:19 · 167 阅读 · 0 评论 -
深度强化学习-笔记02
这次的任务我个人认为还是比较多的,很多涉及数学公式的内容,推公式就比较难。 1.马尔可夫决策过程(MDP) 这里先介绍强化学习中agent与environment的交互过程,如下图: agent在得到环境的状态过后,它会采取行为,它会把这个采取的行为返还给环境。环境在得到agent的行为过后,它会进入下一个状态,把下一个状态传回agent。这个交互的过程是可以通过MDP来表示的。在在马尔可夫决策过程中,它的环境是 fully observable ,就是全部可以观测的。但是很多时候环境里面有些量是不可观测原创 2020-10-23 21:44:59 · 167 阅读 · 0 评论 -
深度强化学习-笔记01
1.什么是强化学习? 强化学习讨论的问题是一个 智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。 Agent 在环境里面获取到状态state,也是对整个environment的observation,agent 会利用这个状态输出一个 action,一个决策。然后这个决策会放到环境之中去,环境会通过这个 agent 采取的决策,输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。 2.强化学习与深度强化学习原创 2020-10-21 10:50:07 · 199 阅读 · 0 评论