基于“蘑菇书”的强化学习知识点(二):强化学习中基于策略(Policy-Based)和基于价值(Value-Based)方法的区别

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析!具体内容请阅读蘑菇书EasyRL


对应蘑菇书EasyRL——1.4.4.1基于价值的智能体与基于策略的智能体


强化学习中基于策略(Policy-Based)和基于价值(Value-Based)方法的区别

在强化学习中,基于策略的方法基于价值的方法是两类核心的算法设计思路。它们的核心差异在于优化目标动作选择方式。以下是详细对比及具体示例:


1. 定义与核心思想

(1) 基于策略的方法(Policy-Based Methods)
  • 定义:直接学习策略函数(即状态到动作的映射),通过优化策略参数来最大化长期累积奖励。
  • 核心思想
    策略函数可以是确定性的(如 a = π ( s ) a = \pi(s) a=π(s))或概率性的(如 π ( a ∣ s ) = P ( a ∣ s ) \pi(a|s) = P(a|s) π(as)=P(as))。算法通过梯度上升调整策略参数,使高奖励的动作概率增加。
  • 数学表示
    π θ ( a ∣ s ) \pi_\theta(a|s) πθ(as) 表示参数为 θ \theta θ 的策略函数,目标是最大化期望回报 J ( θ ) = E π θ [ G t ] J(\theta) = \mathbb{E}_{\pi_\theta}[G_t] J(θ)=Eπθ[Gt]
(2) 基于价值的方法(Value-Based Methods)
  • 定义:学习价值函数(如状态值函数 V ( s ) V(s) V(s) 或动作值函数 Q ( s , a ) Q(s,a) Q(s,a)),通过价值函数间接选择动作。
  • 核心思想
    通过贝尔曼方程迭代更新价值函数,最终策略由价值函数导出(例如选择具有最高 Q ( s , a ) Q(s,a) Q(s,a) 的动作)。
  • 数学表示
    贝尔曼方程: Q ( s , a ) = E [ R + γ max ⁡ a ′ Q ( s ′ , a ′ ) ] Q(s,a) = \mathbb{E}[R + \gamma \max_{a'} Q(s',a')] Q(s,a)=E[R+γmaxaQ(s,a)]

2. 核心区别

特征基于策略的方法基于价值的方法
优化目标直接优化策略参数 θ \theta θ优化价值函数(如 Q ( s , a ) Q(s,a) Q(s,a) V ( s ) V(s) V(s)
策略表示显式定义策略 π ( a ∣ s ) \pi(a | s) π(as)隐式策略(如贪婪策略: a = arg ⁡ max ⁡ a Q ( s , a ) a = \arg\max_a Q(s,a) a=argmaxaQ(s,a)
动作空间适应性天然支持连续动作空间(如机器人控制)通常需离散化动作空间(如DQN)
探索能力通过策略的随机性自然探索(如概率选择动作)需额外机制(如ε-greedy)促进探索
收敛性更稳定但可能收敛到局部最优可能存在震荡或不收敛(尤其是函数逼近时)
策略更新频率通常按回合(on-policy)更新可在线更新(off-policy,如Q-learning)

3. 具体示例

场景:CartPole游戏
  • 目标:控制小车左右移动,保持杆子竖直不倒。
  • 动作空间:离散(左/右)或连续(力的大小)。
(1) 基于价值的方法示例(如DQN)
  • 步骤
    1. 学习动作值函数 Q ( s , a ) Q(s,a) Q(s,a),预测每个动作的长期价值。
    2. 选择使 Q ( s , a ) Q(s,a) Q(s,a) 最大的动作(例如,向左或向右)。
  • 局限性
    如果动作空间连续(如施加0.1N或0.5N的力),需离散化处理,导致维度灾难。
  • 代码片段逻辑
    action = argmax(q_network(state))  # 选择Q值最大的动作
    
(2) 基于策略的方法示例(如REINFORCE或PPO)
  • 步骤
    1. 直接输出动作的概率分布(例如,向左概率70%,向右30%)。
    2. 通过策略梯度上升,增加高回报动作的概率。
  • 优势
    可直接输出连续动作(如力的大小为0.3N),无需离散化。
  • 代码片段逻辑
    mean, std = policy_network(state)  # 输出高斯分布的均值和方差
    action = sample(mean, std)         # 从分布中采样连续动作
    

4. 优缺点对比

方法类型优点缺点
基于策略1. 支持连续动作空间
2. 探索能力强
3. 策略表达灵活
1. 高方差
2. 样本效率低
3. 训练不稳定
基于价值1. 样本效率高(可off-policy)
2. 训练稳定
1. 依赖价值函数估计精度
2. 难以处理连续动作

5. 典型算法

  • 基于策略的方法
    • REINFORCE(蒙特卡洛策略梯度)
    • PPO(Proximal Policy Optimization)
    • TRPO(Trust Region Policy Optimization)
  • 基于价值的方法
    • Q-learning
    • DQN(Deep Q-Network)
    • SARSA

6. 关键总结

  • 基于策略的方法
    直接操作策略,适合复杂动作空间(如机器人控制、游戏AI),但训练可能不稳定。
  • 基于价值的方法
    依赖价值函数,适合离散动作空间(如Atari游戏),但对函数逼近误差敏感。
  • 混合方法(Actor-Critic)
    结合两者优点,用价值函数辅助策略更新(如A3C、DDPG)。

示例总结

  • 迷宫导航(基于价值)
    学习每个位置的Q值,选择最大Q值的路径。
  • 机械臂控制(基于策略)
    直接输出关节扭矩的连续值,通过策略梯度优化扭矩参数。

两者在解决不同类型问题时各具优势,实际应用中常结合使用(如Actor-Critic架构)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值