2020年10月_yq313210

11月 10月 08月 07月 04月 02月 01月

原创强化学习-task03

Policy Gradient 在 reinforcement learning 中有 3 个components，一个actor，一个environment，一个reward function。让机器玩 video game 时， actor 做的事情就是去操控游戏的摇杆，比如说向左、向右、开火等操作； environment 就是游戏的主机，负责控制游戏的画面负责控制说，怪物要怎么移动，你现在要看到什么画面等等； reward function 就是当你做什么事情，发生什么状况的时候，你可以得到

2020-10-29 22:34:19 193

原创深度强化学习-笔记02

这次的任务我个人认为还是比较多的，很多涉及数学公式的内容，推公式就比较难。 1.马尔可夫决策过程(MDP) 这里先介绍强化学习中agent与environment的交互过程，如下图： agent在得到环境的状态过后，它会采取行为，它会把这个采取的行为返还给环境。环境在得到agent的行为过后，它会进入下一个状态，把下一个状态传回agent。这个交互的过程是可以通过MDP来表示的。在在马尔可夫决策过程中，它的环境是 fully observable ，就是全部可以观测的。但是很多时候环境里面有些量是不可观测

2020-10-23 21:44:59 189

原创深度强化学习-笔记01

1.什么是强化学习？强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。 Agent 在环境里面获取到状态state，也是对整个environment的observation，agent 会利用这个状态输出一个 action，一个决策。然后这个决策会放到环境之中去，环境会通过这个 agent 采取的决策，输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。 2.强化学习与深度强化学习

2020-10-21 10:50:07 214

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习-task03

原创 深度强化学习-笔记02

原创 深度强化学习-笔记01

空空如也

空空如也

原创强化学习-task03

原创深度强化学习-笔记02

原创深度强化学习-笔记01