学习笔记 - 强化学习基础

最新推荐文章于 2023-02-22 00:14:23 发布

Yikkkke

最新推荐文章于 2023-02-22 00:14:23 发布

阅读量152

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_45919895/article/details/109191642

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.强化学习的基本结构是什么？
本质上是强化学习agent和Environment间的交互。agent从Environment中获取状态（State），然后输出一个Action，这个Action会加入到Environment中，并使得Environment输出一个新的State和Action得到的Reward。Agent在Environment中存在的目的就是为了使得积累的Reward极大化。

2.强化学习相对于监督学习为什么训练会更加困难？（强化学习的特征）

数据间的相关性：监督学习的训练数据之间是没有关联的，即它们服从i.i.d分布（独立同分布），而强化学习的数据之间有一定的关联性。
延迟奖励：监督学习agent在做出每一个action后，都能立即得到一个反馈，如果采取的行为是错误的话，还会给出正确的决定；而强化学习却不能，如果它的agent做出了一个错误的action，有时候可以立即得到指引，说它这个action是错误的，但不能得到正确的action，更难的是，做出的action要等到一段时间后才能知道这个行为行不行。

3.强化学习的基本特征有哪些？

通过探索环境来获得对这个环境的理解
强化学习Agent会从环境中得到延迟的奖励
在强化学习的过程中，时间非常重要，得到的数据都是有时间关联的
Agent的行为会改变Environment的State，影响后面的数据

4.近几年强化学习发展迅速的原因？

有了更多的计算能力，更多的GPU，可以更快的做更多的试错（trail-and-error）的尝试
通过这种不同尝试使得Agent在这个环境里获得更多的信息，得到更多的Reward
我们有了这个端到端的一个训练，可以把特征提取和价值估计或者决策一块来优化，这样就可以得到一个更强的决策网络

5.观测和状态有什么关系？

6.对于一个强化学习Agent，它由什么组成？

7.根据强化学习Agent的不同，我们可以将其分为几类？

8.基于策略迭代和基于价值迭代的强化学习方法有什么区别？

9.有模型（model-based）和免模型（model-free）有什么区别？

10.强化学习的通俗理解

Yikkkke

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记 - 强化学习基础

1.强化学习的基本结构是什么？本质上是强化学习agent和Environment间的交互。agent从Environment中获取状态（State），然后输出一个Action，这个Action会加入到Environment中，并使得Environment输出一个新的State和Action得到的Reward。Agent在Environment中存在的目的就是为了使得积累的Reward极大化。2.强化学习相对于监督学习为什么训练会更加困难？（强化学习的特征）数据间的相关性：监督学习的训练数据之间是没
复制链接

扫一扫