浅析强化学习基础

最新推荐文章于 2024-04-12 14:03:18 发布

xiao | yang

最新推荐文章于 2024-04-12 14:03:18 发布

阅读量193

点赞数

文章标签：人工智能算法

本文链接：https://blog.csdn.net/xi_xiyu/article/details/122687049

版权

本文浅析强化学习，探讨其在动态系统决策中的应用。通过3×3棋盘寻宝游戏，解释强化学习的基本概念，包括环境、智能体、状态、动作和奖励。介绍了马尔可夫决策过程（MDP）及其价值迭代和策略迭代方法，用于求解最优策略。强化学习的核心任务是学习状态到动作的映射，以最大化累积收益。

摘要由CSDN通过智能技术生成

1. 简介

强化学习关注身处某个环境中的智能体通过采取行动获得最大化的累积收益。和传统的监督学习不同，在强化学习中，并不直接给智能体的输出打分。相反，智能体只能得到一个间接的反馈，而无法获得一个正确的输入/输出对，因此需要在不断的尝试中优化自己的策略以获得更高的收益。从广义上说，大部分涉及动态系统的决策学习过程都可以看成是一种强化学习。强化学习的应用非常广泛，主要包括博弈论、控制论、优化等多个不同领域。

2. 简述强化学习概念

场景设定：我们有一个3×3的棋盘，其中有一个单元格是马里奥，另一个单元格是宝藏，如图1所示。在游戏的每个步骤时，可以往上、下、左、右四个方向移动马里奥，直到马里奥找到宝藏，游戏结束。在这个场景中，强化学习需要定义一些基本概念来完成对问题的数学建模。

图1：场景设定图

强化学习的基本概念可以通过图2来描述，主要由环境（Environment）、机器人（Agent）、状态（State）、动作（Action）、奖励（Reward）等基本概念构成。简单描述过程就是：一个机器人在环境中会做各种动作，环境会接收动作，并引起自身状态的变化，同时给机器人以奖励。机器人的目标就是使用一些策略，做合适的动作，最大化自身的收益。

最低0.47元/天解锁文章

xiao | yang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
浅析强化学习基础

1.简介强化学习关注身处某个环境中的智能体通过采取行动获得最大化的累积收益。和传统的监督学习不同，在强化学习中，并不直接给智能体的输出打分。相反，智能体只能得到一个间接的反馈，而无法获得一个正确的输入/输出对，因此需要在不断的尝试中优化自己的策略以获得更高的收益。从广义上说，大部分涉及动态系统的决策学习过程都可以看成是一种强化学习。强化学习的应用非常广泛，主要包括博弈论、控制论、优化等多个不同领域。2.简述强化学习概念场景设定：我们有一个3×3的棋盘，其中有一个单元格是马里奥，另一个单元格是..
复制链接

扫一扫