【ziuno】强化学习入门—超级马里奥

马里奥强化学习入门：超级玛丽世界中的策略与奖励

原创已于 2022-03-23 18:44:31 修改 · 3.9k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

于 2022-03-23 16:01:12 首次发布

笔记同时被 3 个专栏收录

34 篇文章

订阅专栏

NLP

14 篇文章

订阅专栏

强化学习

2 篇文章

订阅专栏

本文通过超级马里奥游戏实例讲解强化学习基础知识，涉及智能体、策略、奖励函数、动作价值与状态价值。学习如何通过马里奥的行动选择和环境交互优化策略以最大化奖励。

强化学习入门—超级马里奥

马里奥

对象抽取：马里奥、金币、板栗仔（蘑菇怪）

术语

智能体-Agent：马里奥
状态（S或s）-State：当前游戏画面
动作（A或a）-Action：智能体（马里奥）的，左、右、跳（简化）
策略-Policy：根据状态，决定该采取的动作
奖励（R或r）-Reward：执行动作后，游戏给予奖励，例如吃金币加分
轨迹-Trajectory：包括每一步的状态、动作、奖励。

智能体循环该过程：根据状态s，采取策略，执行动作a，获得奖励r，状态变化。

策略-Policy

Policy：记为 $\pi$ 函数（概率密度函数）
$\pi(a|s)=P(A=a|S=s)$

例：设在某个时刻 $t$ ， $\pi$ 的概率密度

$\pi(左|s_t)=0.2$
$\pi(右|s_t)=0.1$
$\pi(跳|s_t)=0.7$

结论：马里奥更可能跳

强化学习目标：学习 $\pi$ 函数

奖励-Reward

人为设定（超参数）

吃一个金币：R=+1
到达终点：R=+10000
死亡（比如：碰到怪）：R=-10000
其他（无事发生）：R=0

赢得游戏的奖励较大，能够激励学到的 $\pi$ 倾向于赢得游戏而不是吃金币

假设：

如果马里奥向右走，碰到怪（假设怪向左走），R=-10000
如果马里奥跳，碰到金币，R=1

分析1：

对于马里奥： $执行动作\rightarrow 状态变化 \rightarrow 获得奖励$
对于蘑菇怪：向左走，也导致状态变化，进而影响奖励（蘑菇怪并非智能体，而是游戏本身设定导致状态变化的因素）

马里奥是否跳由 $\pi$ 决定，但蘑菇怪往左或往右由环境自己决定，玩家并不知道，因此统一归因于上一状态。

结论1：时刻 $t$ 的奖励 $R_t$ 取决于 $S_t$ 和 $A_t$

状态转移-State transition

状态转移（状态变化）：不同状态间的跳转
根据分析1得：下一状态 $s^{'}$ 取决于状态 $s$ 和动作 $a$
则 $s^{'}$ 可能的概率分布：
$p (s^{'} ∣ s, a) = P (S^{'} = s^{'} ∣ S = s, A = a)$

概念

回报- $U_t$ ：从时刻 $t$ 到游戏结束的累积奖励

回报- $U_t$

$U_t=R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots$

提问：马里奥吃金币的顺序应该如何设计？
答案：优先吃距离最近的，再吃距离远的
结论2：越近的奖励越优先考虑，即权重更高，相对地，越远的奖励权重越低
即： $权重(R_{t})>权重(R_{t+1})$

不妨假设： $\gamma\in(0,1)$
得： $U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots$
（满足结论2）
$\gamma$ ：折扣率（超参数）

Agent的目标是使 $U_t$ 尽可能大

扩展结论1得： $U_t$ 取决于从 $t$ 时刻开始未来所有的状态与动作
所以， $U_t$ 是一个随机变量

提问：如何评估当前 $U_t$ 的高低？
答案：求期望（大概过程是对未来所有的 $\pi(a|s)$ 和 $p (s^{'} ∣ s, a)$ 求积分）

分析：在时刻 $t$ ，若当前状态 $s_t$ 和当前动作 $a_t$ 已知

根据 $p$ ，下一状态 $s_{t+1}$ 取决于 $s_t$ 和 $a_t$ ， $p$ 取决于环境
根据 $\pi$ ，下一步采取的动作 $a_{t+1}$ 取决于 $s_{t+1}$ ， $\pi$ 取决于智能体

结论：对于智能体， $U_t$ 与 $\pi$ 有关，而与 $p$ 无关

因此： $E(U_t)=Q_\pi$

智能体面对状态 $s_t$ 时采取的动作定义为 $a_t$

动作价值函数- $Q_\pi$

Action-value Function
$E(U_t)=Q_\pi$ ， $Q_\pi$ 取决于 $\pi$
因此，智能体的目标：寻找最佳的 $\pi$ 使 $Q_\pi$ 最大
即： $Q^*=\max_\pi Q_\pi$

进一步，若 $s_t$ 与 $a_t$ 未知，则得到公式2 $Q_\pi(s_t,a_t)=E(U_t|S_t=s_t,A_t=a_t)$
结论：若已知 $\pi$ 函数，则可以对当前状态的所有动作进行评分，判断不同动作的好坏
推论：智能体根据 $Q^*$ 对动作的评价作出决策

分析： $Q_\pi(s_t,a_t)$ 与 $\pi$ 、 $s_t$ 、 $a_t$ 有关

$a_t$ 可能是：左、右、跳，其中之一，也是一个随机变量
把 $a_t$ 视为随机变量 $A$ ，再对 $Q_\pi$ 求期望，则 $E_A[Q_\pi(s_t,A)]$ 只与 $s_t$ 和 $\pi$ 有关

定义： $V_\pi(s_t)=E_A[Q_\pi(s_t,A)]$
其数值意义：当前局势如何（与采取的动作无关）

状态价值函数- $V_\pi$

State-value function
结论：

当 $\pi$ 固定时， $V_\pi$ 越大，表示可能快赢了，越小表示可能快输了
$V_\pi$ 的平均值越大，表示 $\pi$ 越好

运行

问题：马里奥如何执行动作？
答案：两种方法

将 $s_t$ 输入到 $\pi(a|s)$ 中，得到动作的概率分布，随机取样选择动作 $a_t$
输入 $s_t$ ，计算得到 $a_t=\argmax_a Q^*(s_t,a)$

【后续内容，持续学习更新中～】

P.S.

黄色表示超参数

笔者语

正式：本文描述中省略了大量笔者认为不利于理解的部分，替换为简易表达，具体概念必然存在不完善的部分，但不影响基础入门理解
吐槽：找了很多博客，但是概念过多，或过于啰嗦，越看越困，感觉不易于理解，索性自己写个简易版的，加入了一些自己的解读，未必准确，但是方便理解，也算是给自己挖个坑吧～
简化前原文

【ziuno】强化学习入门—超级马里奥

强化学习入门—超级马里奥

术语

策略-Policy

奖励-Reward

状态转移-State transition

概念

回报- U t U_t Ut​

动作价值函数- Q π Q_\pi Qπ​

状态价值函数- V π V_\pi Vπ​

运行

P.S.

笔者语

回报- $U_t$

动作价值函数- $Q_\pi$

状态价值函数- $V_\pi$