【datawhale学习-强化学习】1.基础定义+介绍

最新推荐文章于 2024-09-14 21:53:48 发布

鸿鹄一夏

最新推荐文章于 2024-09-14 21:53:48 发布

阅读量235

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/weixin_51413726/article/details/134428077

版权

RL定义+基本要素

强化学习（Reinforcement Learning，简称RL）是一种机器学习方法。
目标是通过代理与环境的交互学习，以实现某种目标或最大化累积的奖励信号。
如图：在强化学习中，代理根据环境的状态采取行动，并接收一个奖励信号作为反馈，通过学习从先前的经验中提取知识，逐步改进其策略，以达到最优的决策策略。
在这里插入图片描述

强化学习的基本要素包括：

代理（Agent）： 学习和决策的主体，它负责感知环境、选择行动，并通过学习来提高其性能。
环境（Environment）： 代理与之交互的外部系统或情境，其状态可能受到代理的行动影响。
状态（State）： 描述环境的特定瞬时情况，影响代理选择下一步行动的依据。
行动（Action）： 代理基于当前状态所采取的决策或操作。
奖励（Reward）： 表示代理在特定状态下采取特定行动的好坏程度的信号，用于指导代理优化其策略。

一个序列决策过程：智能体与环境进行交互，它在每个时间步(t)都会观察到一个状态（state） $s_t$ ，然后根据某种策略（policy）选择一个动作（action） $a_t$ 。执行动作后，环境会根据动作和当前状态转移到新的状态，并提供一个奖励（reward）信号 $r_{t+1}$ 。

结合基本要素重述强化学习主要目标：找到一种最优策略，即在不同状态下采取的最佳行动，以使累积奖励最大化。这一过程通常通过价值函数来衡量，价值函数评估代理在某个状态下的长期回报。

强化学习方法：基于价值的方法、基于策略的方法以及这两者的结合。

DRL：深度强化学习结合了深度学习和强化学习，通过深度神经网络来学习复杂的策略（实现端到端。

状态和观测：状态是环境的内部表示，而观测是智能体从环境中获取的信息。状态是环境的全貌，观测有时候是全部，有时候是部分。如果环境是完全可观测的，则可以建模为马尔可夫决策过程（MDP）

两大方法——基于策略和基于价值

例子：走迷宫

假设有一个迷宫，智能体需要学习如何从起始点到达目标点。在每个格子里，智能体可以选择四个动作：向上、向下、向左或向右。每个格子都有一个奖励，目标是找到一种策略，使得智能体在整个迷宫中的总奖励最大。

基于策略的方法：
- 策略表示： 智能体学习一个策略，即在每个格子处选择一个动作的概率分布。例如，对于某个格子，策略可以是[0.2, 0.4, 0.1, 0.3]，表示分别选择四个动作的概率。
- 目标： 优化策略参数，使得整个路径上的动作选择能够最大化累积奖励。
- 优点： 可以直接处理连续动作空间，例如，在每个格子处选择动作的概率。
基于价值的方法：
- 价值函数表示： 智能体学习一个价值函数，即在每个格子处采取某个动作后预期获得的累积奖励。例如，对于某个格子和动作，价值函数可以是一个实数。
- 目标： 找到最优的值函数，即对于每个状态或状态-动作对，价值函数能够指导智能体做出最优决策。
- 优点： 在处理部分可观测问题时可能更为有效。

基于策略和基于价值的强化学习方法是两种不同的方法，它们分别关注于如何表示和学习智能体在环境中做出决策的不同方面。

基于策略的强化学习（Policy-Based Reinforcement Learning）：

策略表示： 基于策略的方法直接学习策略，即给定状态，智能体应该采取的动作的概率分布。策略通常用符号或参数化的形式来表示。
目标： 目标是找到一个最优的策略，使得在整个任务中累积的期望奖励最大化。优化的焦点是策略的参数，以使得选择的动作在长期内最有可能导致高累积奖励。
优点： 策略方法适用于高度随机或连续动作空间，而且它们能够直接处理探索-利用的平衡问题。
例子： 攭者梯度法（Policy Gradient Methods）是基于策略的一类方法。

基于价值的强化学习（Value-Based Reinforcement Learning）：

价值函数表示： 基于价值的方法关注于学习状态或状态-动作对的价值函数，该函数表示在当前状态或状态-动作对上采取行动能够获得的累积奖励。
目标： 目标是找到最优的值函数，即找到每个状态或状态-动作对的最大累积奖励。策略可以通过使用值函数来推导，例如选择使值函数最大化的动作。
优点： 价值方法在处理部分可观测问题（部分可观测马尔可夫决策过程，POMDP）时通常更为有效。
例子： Q-learning 和深度 Q 网络（DQN）是基于价值的方法的例子。

区别总结：

基于策略的方法直接学习决策策略，而基于价值的方法学习状态或状态-动作对的价值函数。
策略方法更适用于处理连续或高度随机的动作空间，而价值方法在处理部分可观测问题时可能更有效。
策略方法直接处理探索-利用的平衡问题，而价值方法通常需要额外的探索策略。

两大模型——有模型和免模型

在强化学习中，有模型强化学习（Model-Based Reinforcement Learning）和免模型强化学习（Model-Free Reinforcement Learning）是两种不同的学习范式，它们主要在智能体如何对环境进行建模和学习中有所不同。

1. 有模型强化学习（Model-Based Reinforcement Learning）：

在有模型强化学习中，智能体试图学习环境的模型，即对环境动态的内部表示。这个模型通常包含对状态转移概率和奖励函数的估计。有了这个模型，智能体可以使用规划算法来预测不同动作的影响，然后选择使得长期累积奖励最大化的动作。

关键点：

模型学习： 智能体尝试从交互中学习环境的模型，以便更好地规划其行为。
规划： 使用学到的模型进行规划，即通过模拟未来的状态和奖励来选择最佳动作。

适用场景：

适用于环境动态相对较为可预测的情况。
适用于状态空间较大、动作空间较复杂的问题。

2. 免模型强化学习（Model-Free Reinforcement Learning）：

在免模型强化学习中，智能体不显式地学习环境的模型。相反，它直接从与环境的交互中学习策略或价值函数。常见的算法包括 Q-learning、深度 Q 网络（DQN）、策略梯度等。这些算法通过经验采样来优化其策略或价值函数，而无需建立环境的模型。

关键点：

无模型学习： 智能体直接学习策略或价值函数，而不显式地建模环境的动态。
经验采样： 通过与环境的交互来收集经验，然后使用这些经验来更新策略或价值函数。

适用场景：

适用于环境动态较难建模或不确定性较大的情况。
适用于大型状态空间或连续动作空间的问题。

比较总结：

模型： 有模型方法关注于学习环境的模型，而免模型方法直接学习策略或价值函数。
适用场景： 有模型方法适用于相对可预测的环境，而免模型方法适用于更不确定或复杂的环境。
计算复杂性： 有模型方法通常需要更多的计算资源，因为它们涉及到模型的构建和规划过程，而免模型方法更直接且计算效率更高。

两个交互——学习与规划

学习（Learning）：

学习是指智能体通过与环境的交互，从经验中提取信息、改进策略或价值函数，以提高在未来任务中的性能。

模型学习： 智能体学习环境的模型，即对环境动态的内部表示。这包括对状态转移概率和奖励函数的估计。有模型学习通常与规划过程结合使用，使智能体能够通过模拟环境来评估可能的行动。
策略学习或价值函数学习： 智能体直接学习执行动作的策略或学习状态或状态-动作对的价值函数。这类方法通常涉及使用免模型学习算法，例如 Q-learning、深度 Q 网络（DQN）或策略梯度等。