强化学习笔记（一）

最新推荐文章于 2022-05-26 22:00:39 发布

wydxry

最新推荐文章于 2022-05-26 22:00:39 发布

阅读量146

点赞数

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wydxry/article/details/113096706

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

概览

强化学习相关如下图所示：
在这里插入图片描述
强化学习属于机器学习的分支：

特点

强化学习没有监督数据，只有奖励信号；
强化学习中的奖励信号不一定是实时的，很可能是延后的；
强化学习中时间（序列）是一个很重要的因素；
个体在某一时刻的行为会导致环境的响应并影响到个体的将来。

分类

考虑价值或策略：

（1）仅基于价值函数：这样的个体有对状态价值的估计函数，但是没有直接的策略函数，策略函数由价值函数间接得到。
（2）仅直接基于策略：在这样的个体中，行为直接由策略函数产生，个体并不维护一个对各状态价值的估计函数。
（3）演员-评判家（Actor-Critic）类型：这样的个体既有价值函数也有策略函数，两者相互结合解决问题。

考虑模型：

（1）不基于模型的个体：这类个体并不试图了解环境如何工作，而仅聚焦于价值和策略函数，或者二者之一。
（2）基于模型的个体：个体尝试建立一个描述环境运作过程的模型，以此来指导价值或策略函数的更新。

分类情况如下图所示：
强化学习分类

个体与环境的关系

个体与环境的关系

环境分类

完全可观测
部分可观测

策略分类

策略是从个体状态到行为的一个映射（Mapping）。
如果一种策略在一个确定的状态下能够产生一个确定的行为，那么这种策略就可以称为确定性策略（Deterministic Policy）。相反，如果某一种策略在确定状态下不能产生一个确定的行为，而是提供各种可能行为的概率，那么这种策略就可以称为随机性策略（Stochastic Policy）。

参考资料

[1] David Silver 强化学习课程.
[2] 叶强,闫维新,黎斌．强化学习入门：从原理到实践[M]．北京．机械工业出版社, 2020.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习笔记（一）

强化学习分类第一种分类方式：（1）仅基于价值函数：这样的个体有对状态价值的估计函数，但是没有直接的策略函数，策略函数由价值函数间接得到。（2）仅直接基于策略：在这样的个体中，行为直接由策略函数产生，个体并不维护一个对各状态价值的估计函数。（3）演员-评判家（Actor-Critic）类型：这样的个体既有价值函数也有策略函数，两者相互结合解决问题。第二种分类方式：（1）不基于模型的个体：这类个体并不试图了解环境如何工作，而仅聚焦于价值和策略函数，或者二者之一。（2）基于模型的个体：个体尝试建立一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wydxry 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。