基于“蘑菇书”的强化学习知识点（二）：强化学习中基于策略（Policy-Based）和基于价值（Value-Based）方法的区别

墨绿色的摆渡人

已于 2025-02-03 17:22:36 修改

阅读量1.1k

点赞数 17

分类专栏：基于“蘑菇书”的强化学习知识点文章标签：强化学习蘑菇书

于 2025-02-03 03:48:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xzs1210652636/article/details/145425561

版权

基于“蘑菇书”的强化学习知识点专栏收录该内容

24 篇文章

订阅专栏

强化学习中基于策略（Policy-Based）和基于价值（Value-Based）方法的区别

- 摘要

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！

对应蘑菇书EasyRL——1.4.4.1基于价值的智能体与基于策略的智能体

强化学习中基于策略（Policy-Based）和基于价值（Value-Based）方法的区别

在强化学习中，基于策略的方法和基于价值的方法是两类核心的算法设计思路。它们的核心差异在于优化目标和动作选择方式。以下是详细对比及具体示例：

1. 定义与核心思想

(1) 基于策略的方法（Policy-Based Methods）

定义：直接学习策略函数（即状态到动作的映射），通过优化策略参数来最大化长期累积奖励。
核心思想：
策略函数可以是确定性的（如 $\pi(s)$ ）或概率性的（如 $\pi(a|s) = P(a|s)$ ）。算法通过梯度上升调整策略参数，使高奖励的动作概率增加。
数学表示：
$\pi_\theta(a|s)$ 表示参数为 $\theta$ 的策略函数，目标是最大化期望回报 $J(\theta) = \mathbb{E}_{\pi_\theta}[G_t]$ 。

(2) 基于价值的方法（Value-Based Methods）

定义：学习价值函数（如状态值函数 $V (s)$ 或动作值函数 $Q (s, a)$ ），通过价值函数间接选择动作。
核心思想：
通过贝尔曼方程迭代更新价值函数，最终策略由价值函数导出（例如选择具有最高 $Q (s, a)$ 的动作）。
数学表示：
贝尔曼方程： $\mathbb{E}[R + \gamma \max_{a'} Q(s',a')]$ 。

2. 核心区别

特征	基于策略的方法	基于价值的方法
优化目标	直接优化策略参数 $\theta$	优化价值函数（如 $Q (s, a)$ 或 $V (s)$ ）
策略表示	显式定义策略 $\pi(a \| s)$	隐式策略（如贪婪策略： $a = \arg\max_a Q(s,a)$ ）
动作空间适应性	天然支持连续动作空间（如机器人控制）	通常需离散化动作空间（如DQN）
探索能力	通过策略的随机性自然探索（如概率选择动作）	需额外机制（如ε-greedy）促进探索
收敛性	更稳定但可能收敛到局部最优	可能存在震荡或不收敛（尤其是函数逼近时）
策略更新频率	通常按回合（on-policy）更新	可在线更新（off-policy，如Q-learning）

3. 具体示例

场景：CartPole游戏

目标：控制小车左右移动，保持杆子竖直不倒。
动作空间：离散（左/右）或连续（力的大小）。

(1) 基于价值的方法示例（如DQN）

步骤：
1. 学习动作值函数 $Q (s, a)$ ，预测每个动作的长期价值。
2. 选择使 $Q (s, a)$ 最大的动作（例如，向左或向右）。
局限性：
如果动作空间连续（如施加0.1N或0.5N的力），需离散化处理，导致维度灾难。

代码片段逻辑：

action = argmax(q_network(state))  # 选择Q值最大的动作

(2) 基于策略的方法示例（如REINFORCE或PPO）

步骤：
1. 直接输出动作的概率分布（例如，向左概率70%，向右30%）。
2. 通过策略梯度上升，增加高回报动作的概率。
优势：
可直接输出连续动作（如力的大小为0.3N），无需离散化。

代码片段逻辑：

mean, std = policy_network(state)  # 输出高斯分布的均值和方差
action = sample(mean, std)         # 从分布中采样连续动作

4. 优缺点对比

方法类型	优点	缺点
基于策略	1. 支持连续动作空间 2. 探索能力强 3. 策略表达灵活	1. 高方差 2. 样本效率低 3. 训练不稳定
基于价值	1. 样本效率高（可off-policy） 2. 训练稳定	1. 依赖价值函数估计精度 2. 难以处理连续动作

5. 典型算法

基于策略的方法：
- REINFORCE（蒙特卡洛策略梯度）
- PPO（Proximal Policy Optimization）
- TRPO（Trust Region Policy Optimization）
基于价值的方法：
- Q-learning
- DQN（Deep Q-Network）
- SARSA

6. 关键总结

基于策略的方法：
直接操作策略，适合复杂动作空间（如机器人控制、游戏AI），但训练可能不稳定。
基于价值的方法：
依赖价值函数，适合离散动作空间（如Atari游戏），但对函数逼近误差敏感。
混合方法（Actor-Critic）：
结合两者优点，用价值函数辅助策略更新（如A3C、DDPG）。

示例总结

迷宫导航（基于价值）：
学习每个位置的Q值，选择最大Q值的路径。
机械臂控制（基于策略）：
直接输出关节扭矩的连续值，通过策略梯度优化扭矩参数。

两者在解决不同类型问题时各具优势，实际应用中常结合使用（如Actor-Critic架构）。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。