基于“蘑菇书”的强化学习知识点（一）：奖励函数（Reward Function）和价值函数（Value Function）的区别

墨绿色的摆渡人

已于 2025-02-03 03:39:28 修改

阅读量1.9k

点赞数 64

分类专栏：基于“蘑菇书”的强化学习知识点文章标签：强化学习蘑菇书

于 2025-02-03 03:27:37 首次发布

本文链接：https://blog.csdn.net/xzs1210652636/article/details/145425523

版权

24 篇文章

订阅专栏

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！

在强化学习中，奖励函数（Reward Function）和价值函数（Value Function）是两个核心但作用截然不同的概念。以下是它们的详细区别及具体示例：

定义：价值函数是智能体对长期累积奖励的预期值，评估当前状态或状态-动作对的“潜在价值”。
目标：帮助智能体进行长期规划，权衡即时奖励与未来收益。
数学表示：
- 状态值函数 $V^\pi(s)$ : 在策略 $\pi$ 下，从状态 $s$ 出发的预期累积奖励。
- 动作值函数 $Q^\pi(s, a)$ : 在策略 $\pi$ 下，从状态 $s$ 执行动作 $a$ 后的预期累积奖励。

规则：
- 到达终点（G）：+100
- 踩到陷阱（X）：-50
- 每移动一步：-1（鼓励快速到达终点）
数学表示：
$\begin{cases} +100 & \text{if } s' = G \\ -50 & \text{if } s' = X \\ -1 & \text{otherwise} \end{cases}$

目标：计算每个状态的价值，例如：
- 终点附近的状态价值较高（因为容易到达终点）。
- 靠近陷阱的状态价值较低（可能被惩罚）。
贝尔曼方程：
$V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) \left[ R(s,a,s') + \gamma V^\pi(s') \right]$
其中 $\gamma$ 是折扣因子（如0.9），表示未来奖励的衰减。