强化学习基础知识——基本概念

最新推荐文章于 2024-05-20 19:08:38 发布

XaiverZ

最新推荐文章于 2024-05-20 19:08:38 发布

阅读量392

点赞数 4

分类专栏：强化学习基础知识文章标签：人工智能机器学习强化学习

本文链接：https://blog.csdn.net/windgrin_/article/details/137683997

版权

强化学习基础知识专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Reinforcement Learning（强化学习）

强化学习（Reinforcement Learning）是机器学习（Machine Learning）中的一个领域，本质上是一种无监督学习，其目的是让软件智能体（Agent）在特定环境（Environment）中的某一状态（State）下能够采取回报（Reward）最大化的行为（Action）
流行的强化学习方法包括自适应动态规划（ADP）、时间差分（TD）学习、状态-动作-回报-状态-动作（SARSA）算法、Q-Learning等；其应用包括下棋类游戏、机器人控制和工作调度等。

在这里插入图片描述

智能体（Agent）：可以采取行动的智能个体。如强化学习的算法可以认为是一个我们人为创造的智能体。
行动（Action）：智能体可以采取的行动的集合。如Flappy Bird游戏中智能体“Bird”可以采取的行动为“跳跃”与“无操作”。
环境（Environment）：智能体所处的世界。如Flappy Bird中环境就是游戏的背景环境----一个充满障碍物的世界，它接受智能体的状态和行动作为输入，输出智能体该步动作的奖励以及下一步的状态。
状态（State）：智能体所处的具体即时状态。如Flappy Bird中我们可以将智能体“Bird”所处的背景图片当作即时状态。
奖励（Reward）：衡量智能体行动好坏的反馈。如Flappy Bird中，若智能体“Bird”采取“跳跃”动作后没有碰到障碍物，那么环境对智能体的反馈奖励可以认为是一个较大的值。反之，若碰到了障碍物，则环境对智能体的反馈奖励可以认为是一个较小的值。