【学习笔记】强化学习1——强化学习概述

最新推荐文章于 2023-05-20 19:19:31 发布

hozy_Lynnnnn.

最新推荐文章于 2023-05-20 19:19:31 发布

阅读量547

点赞数

分类专栏：【学习笔记】强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45844626/article/details/127061294

版权

【学习笔记】强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

强化学习概述

机器学习主要分为监督学习、非监督学习、强化学习。强化学习的训练样本没有标记，根据训练样本学习迭代获得最优策略，强化学习需要与环境不断地交互学习。

强化学习的基本原理是智能体从环境中接收一个状态s，通过动作a与环境进行交互，产生下一状态s'并获得一个回报。智能体与环境不断的交互，产生更多的数据（状态和回报），并利用新的数据进一步改善自身的行为。

强化学习以求解每个状态下的最优策略为目标。

智能体的组成

策略

$\pi (a | s)$ 表示在某状态下，执行某行为的概率。

随机性策略：根据状态输出每个可能动作的概率（分布）。

确定性策略：输出一个动作。

值函数

值函数的估计根据给定策略进行。

回报：从t时刻开始所有衰减的汇报总和。

状态值函数：从状态s开始，遵循策略 $\pi$ 所获得的期望回报。

行为值函数：从状态s开始，遵循策略 $\pi$ 执行动作a 所获得的期望回报。

模型

智能体对环境的一个建模。给定一个状态和行为，能够预测下一个状态和获得的回报。

研究方法

第一步：构建数学模型——马尔科夫决策模型

第二步：求解马尔可夫决策模型的最优解

重要概念

学习与规划

学习：智能体对环境模型未知，通过与环境的交互不断学习，采用试错法逐步改善策略。

规划：智能体对环境已知，根据已知的环境规划策略。

探索与利用

探索：智能体在某个状态下去尝试新的动作，以获得更多的环境信息。

利用：智能体根据已知信息，选取最优行为获得最大回报。

预测与控制

预测：在给定策略下获得状态值函数。

控制：寻找最优策略。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】强化学习1——强化学习概述

【学习笔记】强化学习概述
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。