【datawhale学习-强化学习】1.基础定义+介绍


基于蘑菇书easyRL以及joyRL,学习整理得到。


RL定义+基本要素

强化学习(Reinforcement Learning,简称RL)是一种机器学习方法。
目标是通过代理与环境的交互学习,以实现某种目标或最大化累积的奖励信号。
如图:在强化学习中,代理根据环境的状态采取行动,并接收一个奖励信号作为反馈,通过学习从先前的经验中提取知识,逐步改进其策略,以达到最优的决策策略。
在这里插入图片描述

强化学习的基本要素包括:

  1. 代理(Agent): 学习和决策的主体,它负责感知环境、选择行动,并通过学习来提高其性能。
  2. 环境(Environment): 代理与之交互的外部系统或情境,其状态可能受到代理的行动影响。
  3. 状态(State): 描述环境的特定瞬时情况,影响代理选择下一步行动的依据。
  4. 行动(Action): 代理基于当前状态所采取的决策或操作。
  5. 奖励(Reward): 表示代理在特定状态下采取特定行动的好坏程度的信号,用于指导代理优化其策略。

一个序列决策过程:智能体与环境进行交互,它在每个时间步(t)都会观察到一个状态(state) s t s_t st,然后根据某种策略(policy)选择一个动作(action) a t a_t at。执行动作后,环境会根据动作和当前状态转移到新的状态,并提供一个奖励(reward)信号 r t + 1 r_{t+1} rt+1

结合基本要素重述强化学习主要目标:找到一种最优策略,即在不同状态下采取的最佳行动,以使累积奖励最大化。这一过程通常通过价值函数来衡量,价值函数评估代理在某个状态下的长期回报。

强化学习方法:基于价值的方法、基于策略的方法以及这两者的结合。

DRL:深度强化学习结合了深度学习和强化学习,通过深度神经网络来学习复杂的策略(实现端到端。

状态和观测:状态是环境的内部表示,而观测是智能体从环境中获取的信息。状态是环境的全貌,观测有时候是全部,有时候是部分。如果环境是完全可观测的,则可以建模为马尔可夫决策过程(MDP)

两大方法——基于策略和基于价值

例子:走迷宫

假设有一个迷宫,智能体需要学习如何从起始点到达目标点。在每个格子里,智能体可以选择四个动作:向上、向下、向左或向右。每个格子都有一个奖励,目标是找到一种策略,使得智能体在整个迷宫中的总奖励最大。

  1. 基于策略的方法:

    • 策略表示: 智能体学习一个策略,即在每个格子处选择一个动作的概率分布。例如,对于某个格子,策略可以是[0.2, 0.4, 0.1, 0.3],表示分别选择四个动作的概率。

    • 目标: 优化策略参数,使得整个路径上的动作选择能够最大化累积奖励。

    • 优点: 可以直接处理连续动作空间,例如,在每个格子处选择动作的概率。

  2. 基于价值的方法:

    • 价值函数表示: 智能体学习一个价值函数,即在每个格子处采取某个动作后预期获得的累积奖励。例如,对于某个格子和动作,价值函数可以是一个实数。

    • 目标: 找到最优的值函数,即对于每个状态或状态-动作对,价值函数能够指导智能体做出最优决策。

    • 优点: 在处理部分可观测问题时可能更为有效。

基于策略和基于价值的强化学习方法是两种不同的方法,它们分别关注于如何表示和学习智能体在环境中做出决策的不同方面。

基于策略的强化学习(Policy-Based Reinforcement Learning):

  1. 策略表示: 基于策略的方法直接学习策略,即给定状态,智能体应该采取的动作的概率分布。策略通常用符号或参数化的形式来表示。

  2. 目标: 目标是找到一个最优的策略,使得在整个任务中累积的期望奖励最大化。优化的焦点是策略的参数,以使得选择的动作在长期内最有可能导致高累积奖励。

  3. 优点: 策略方法适用于高度随机或连续动作空间,而且它们能够直接处理探索-利用的平衡问题。

  4. 例子: 攭者梯度法(Policy Gradient Methods)是基于策略的一类方法。

基于价值的强化学习(Value-Based Reinforcement Learning):

  1. 价值函数表示: 基于价值的方法关注于学习状态或状态-动作对的价值函数,该函数表示在当前状态或状态-动作对上采取行动能够获得的累积奖励。

  2. 目标: 目标是找到最优的值函数,即找到每个状态或状态-动作对的最大累积奖励。策略可以通过使用值函数来推导,例如选择使值函数最大化的动作。

  3. 优点: 价值方法在处理部分可观测问题(部分可观测马尔可夫决策过程,POMDP)时通常更为有效。

  4. 例子: Q-learning 和深度 Q 网络(DQN)是基于价值的方法的例子。

区别总结:

  • 基于策略的方法直接学习决策策略,而基于价值的方法学习状态或状态-动作对的价值函数。
  • 策略方法更适用于处理连续或高度随机的动作空间,而价值方法在处理部分可观测问题时可能更有效。
  • 策略方法直接处理探索-利用的平衡问题,而价值方法通常需要额外的探索策略。

两大模型——有模型和免模型

在强化学习中,有模型强化学习(Model-Based Reinforcement Learning)和免模型强化学习(Model-Free Reinforcement Learning)是两种不同的学习范式,它们主要在智能体如何对环境进行建模和学习中有所不同。

1. 有模型强化学习(Model-Based Reinforcement Learning):

在有模型强化学习中,智能体试图学习环境的模型,即对环境动态的内部表示。这个模型通常包含对状态转移概率和奖励函数的估计。有了这个模型,智能体可以使用规划算法来预测不同动作的影响,然后选择使得长期累积奖励最大化的动作。

关键点:

  • 模型学习: 智能体尝试从交互中学习环境的模型,以便更好地规划其行为。
  • 规划: 使用学到的模型进行规划,即通过模拟未来的状态和奖励来选择最佳动作。

适用场景:

  • 适用于环境动态相对较为可预测的情况。
  • 适用于状态空间较大、动作空间较复杂的问题。

2. 免模型强化学习(Model-Free Reinforcement Learning):

在免模型强化学习中,智能体不显式地学习环境的模型。相反,它直接从与环境的交互中学习策略或价值函数。常见的算法包括 Q-learning、深度 Q 网络(DQN)、策略梯度等。这些算法通过经验采样来优化其策略或价值函数,而无需建立环境的模型。

关键点:

  • 无模型学习: 智能体直接学习策略或价值函数,而不显式地建模环境的动态。
  • 经验采样: 通过与环境的交互来收集经验,然后使用这些经验来更新策略或价值函数。

适用场景:

  • 适用于环境动态较难建模或不确定性较大的情况。
  • 适用于大型状态空间或连续动作空间的问题。

比较总结:

  • 模型: 有模型方法关注于学习环境的模型,而免模型方法直接学习策略或价值函数。
  • 适用场景: 有模型方法适用于相对可预测的环境,而免模型方法适用于更不确定或复杂的环境。
  • 计算复杂性: 有模型方法通常需要更多的计算资源,因为它们涉及到模型的构建和规划过程,而免模型方法更直接且计算效率更高。

两个交互——学习与规划

学习(Learning):

学习是指智能体通过与环境的交互,从经验中提取信息、改进策略或价值函数,以提高在未来任务中的性能。

  1. 模型学习: 智能体学习环境的模型,即对环境动态的内部表示。这包括对状态转移概率和奖励函数的估计有模型学习通常与规划过程结合使用,使智能体能够通过模拟环境来评估可能的行动。

  2. 策略学习或价值函数学习: 智能体直接学习执行动作的策略或学习状态或状态-动作对的价值函数。这类方法通常涉及使用免模型学习算法,例如 Q-learning、深度 Q 网络(DQN)或策略梯度等。

规划(Planning):

规划是指智能体使用学到的知识,通过在环境模型或实际环境中模拟未来的状态、动作和奖励,制定最优的行动策略。比如策略迭代或者价值迭代。

  1. 模型规划: 使用学习到的环境模型,智能体通过规划算法来模拟不同动作的影响,然后选择使得长期累积奖励最大化的动作。有模型强化学习方法通常涉及到模型规划。

  2. 无模型规划: 在没有显式环境模型的情况下,智能体通过使用学到的策略或价值函数,使用规划算法来选择最佳的行动。这通常是免模型强化学习方法所采用的方式。

学习与规划的关系:

  • 相互作用: 学习和规划通常是相互作用的过程。学到的知识可以用于规划,而规划的结果又可以用于更新学习的模型、策略或价值函数。

  • 探索与利用: 学习阶段通常涉及探索环境以获取更多信息,而规划阶段则侧重于利用学到的知识来做出决策。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值