深度强化学习-笔记（一）

最新推荐文章于 2022-07-12 23:25:27 发布

wield_jjz

最新推荐文章于 2022-07-12 23:25:27 发布

阅读量271

点赞数 2

分类专栏：学习笔记文章标签：强化学习

本文链接：https://blog.csdn.net/wield_jjz/article/details/109184238

版权

本文介绍了强化学习的概念，强调其与监督学习的区别，如序列数据的非独立同分布性质和试错学习。探讨了强化学习中的探索与利用策略，并解释了延迟奖励问题。同时，文章阐述了深度强化学习如何结合神经网络简化特征工程，以及在序列决策过程中的挑战。此外，还讨论了部分可观测环境、动作空间的类型以及RL Agent的构成，包括Policy、Value Function和Model。

摘要由CSDN通过智能技术生成

深度强化学习概述

什么是强化学习？

强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的环境(environment)里面去极大化它能获得的奖励。
在这里插入图片描述
Agent 在环境里面获取到状态state，也是对整个environment的observation，agent 会利用这个状态输出一个 action，一个决策。然后这个决策会放到环境之中去，环境会通过这个 agent 采取的决策，输出下一个状态以及当前的这个决策得到的奖励。Agent 的目的就是为了尽可能多地从环境中获取奖励。

强化学习与监督学习

强化学习输入的序列数据并不是独立同分布的，而监督学习输入的序列数据服从独立同分布（i.i.d.）
强化学习的过程中，并不知道每一步正确的行为应该是什么，learner需要自己去发现哪些行为可以使得它最后得到这个奖励，并且只能通过不断的尝试来发现最有利的action
Agent通关不断试错（trial and error exploration）。Exploration & Exploitation （探索和利用）是强化学习中一个核心的问题。Exploration 是指agent会去尝试一些新的行为，这些新的行为有可能会使你得到更高的奖励，也有可能使你一无所有。Exploitation 说的是你就是就采取你已知的可以获得最大奖励的行为，你就重复执行这个 action 就可以了，因为你已经知道可以获得一定的奖励。因此，我们需要在 exploration 和 exploitation 之间取得一个权衡（trade-off），这也是在监督学习里面没有的情况。
在强化学习过程中，没有非常强的 supervisor，只有一个奖励信(reward signal) ，就是环境会在很久以后告诉你之前你采取的行为到底是不是有效的。这里就会涉及到一个延迟奖励（delay reward）的问题。

强化学习与深度强化学习

强化学习结合深度学习，有了神经网络，那么大家也把整个过程改进成一个 end-to-end training 的过程。你直接输入这个状态，我们不需要去手工地设计这个特征，就可以让它直接输出 action。那么就可以用一个神经网络来拟合我们这里的 value function 或 policy network，省去了 feature engineering 的过程。

序列决策过程

在这里插入图片描述
在一个强化学习环境里面，agent 的目的就是为了选取一系列的动作来极大化它的奖励，所以这些采取的措施必须有长期的影响。但在这个过程里面，它的奖励其实是被延迟了，就是说你现在采取的某一步决策可能要等到时间很久过后才知道这一步到底产生了什么样的影响。这里一个示意图就是我们玩这个 Atari 的 Pong 这个游戏，你可能只有到最后游戏结束过后，才知道这个球到底有没有击打过去。中间你采取的 up 或 down 行为，并不会直接产生奖励。强化学习里面一个重要的课题就是近期奖励和远期奖励的一个 trade-off。怎么让 agent 取得更多的长期奖励是强化学习的问题。