2017 - Revisiting the Arcade Learning Environment

最新推荐文章于 2024-03-23 10:02:37 发布

hanjialeOK

最新推荐文章于 2024-03-23 10:02:37 发布

阅读量282

点赞数

分类专栏： Paper Reading 文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_43742643/article/details/119950450

版权

Paper Reading 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

地址：https://arxiv.org/abs/1709.06009

在第 12 页，文章提出了粘性动作（sticky actions），目的是向 ALE（The Arcade Learning Environment）游戏中加入随机性（stochasticity），并且评估智能体的健壮性（robustness）。

粘性动作是指，每次环境执行的动作（ $A_{t-1}$ ）有 $\zeta$ 的概率是上一步动作（ $a_{t-1}$ ），有 $1-\zeta$ 的概率是此次智能体选择的动作（ $a$ ）。

$A_{t-1}=\begin{cases} \begin{aligned} a&, &\text{with prob.} &&1-\zeta \\ a_{t-1}&, &\text{with prob.} &&\zeta \end{aligned} \end{cases}$

以 gym 中的游戏 Pong 为例，下表中的 Repeat action probability 表示粘性动作机制。p=0.25 表示每次有 0.25 的概率重复上一次动作，0.75 的概率执行智能体选择的动作。Frame Skip 为 2~4 的目的也是为了增加随机性。表格来自 https://www.endtoend.ai/envs/gym/atari/

Name	Frame Skip k	Repeat action probability p
Pong-v0	2~4	0.25
Pong-v4	2~4	0
PongDeterministic-v0	4	0.25
PongDeterministic-v4	4	0
PongNoFrameskip-v0	1	0.25
PongNoFrameskip-v4	1	0

下图是文章 5.2 部分解释 frame skiping=4 和 sticky actions 共同作用的效果。

在这里插入图片描述

hanjialeOK

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2017 - Revisiting the Arcade Learning Environment

地址：https://arxiv.org/abs/1709.06009在第 12 页，文章提出了粘性动作（sticky actions），目的是向 ALE（The Arcade Learning Environment）游戏中加入随机性（stochasticity），并且评估智能体的健壮性（robustness）。粘性动作是指，每次环境执行的动作（At−1A_{t-1}At−1）有 ζ\zetaζ 的概率是上一步动作（at−1a_{t-1}at−1），有 1−ζ1-\zeta1−ζ 的概率是此次智
复制链接

扫一扫

专栏目录