强化学习环境gymnasium的搭建

最新推荐文章于 2025-04-06 17:33:59 发布

摇光65535

最新推荐文章于 2025-04-06 17:33:59 发布

阅读量4.9k

点赞数 3

分类专栏：强化学习人工智能文章标签： python 深度学习人工智能强化学习 gymnasium

本文链接：https://blog.csdn.net/willian113/article/details/130285006

版权

人工智能同时被 2 个专栏收录

4 篇文章

订阅专栏

强化学习

1 篇文章

订阅专栏

本文介绍了如何搭建强化学习环境gymnasium，包括使用pipenv创建虚拟环境，安装包含atari的游戏环境，以及新版gymnasium中reset和step方法的变化，并提到了wrappers.Monitor被替换为RecordVideo的情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习环境gymnasium的搭建

0. 前言
1. 环境搭建
1.1 虚拟环境配置
1.2 安装gymnasium
2. 代码测试
3. 版本变化
- 3.1 `reset`和`step`方法
- 3.2 `wrappers.Monitor`
参考链接

0. 前言

gym是目前强化学习最常用的工具之一，一直在迭代升级。2021年gym库不再更新，推出了gymnasium作为替代 ¹。

gymnasium与gym之间的主要不同在于reset和step的返回参数数目发生了变化，具体变化见版本变化。

本文所用环境为：

python: 3.9
pipenv: 2023.3.20
gymnasium: 0.28.1
操作系统 Windows 10 和 LinuxMint 20.3 (Ubuntu 20.04)

1. 环境搭建

本文采用pipenv作为虚拟环境方案进行环境搭建，主要包含gymnasium(含atari)的配置。搭建完整强化学习环境后续还需安装CUDA、PyTorch、opencv等库。

1.1 虚拟环境配置

安装pipenv：

pip install pipenv -i https://pypi.tuna.tsinghua.edu.cn/simple/

这里注意版本兼容性问题，据官方说法，pipenv适用于python 3.7及以上²。

1.2 安装gymnasium

在强化学习中，Atari游戏是经典的实验环境之一，gymnasium默认是不包含atari的，本文将安装包含atari的gymnasium版本。

新建虚拟环境并进入：

mkdir -p ~/rl
cd ~/rl
pipenv shell	# 在当前工作目录进入虚拟环境

此时会提示创建了新的虚拟环境，可以在该目录中发现多了名为Pipfile的虚拟环境配置文件。

接下来安装gymnasium：

pipenv install gymnasium[atari] gymnasium[accept-rom-license]

这里注意gymnasium[atari]和gymnasium[accept-rom-license]都要安装，否则atari的环境是无法成功建立的。

2. 代码测试

gymnasium中包含的Atari列表可以在官网文档中找到，这里用Pong这个游戏举例，版本采用NoFrameskip-v4。

建立gym_test.py:

import gymnasium as gym

env_name= 'PongNoFrameskip-v4'
print(f'gymnasium version: {gym.__version__}')
env = gym.make(env_name)

运行脚本，如果出现类似以下结果说明包含atari的gymnasium安装成功。

(rl) aa@bb:~/rl$ python env_test.py
gymnasium version: 0.28.1
A.L.E: Arcade Learning Environment (version 0.8.1+53f58b7)
[Powered by Stella]

3. 版本变化

3.1 `reset`和`step`方法

在旧版中，reset()方法只返回重置后的环境观察值，而新版的reset()方法返回环境的观察值以及一些信息：

gymnasium.Env.reset(self, *, seed: int | None = None, options: dict[str, Any] | None = None) → tuple[ObsType, dict[str, Any]]

在旧版中，step()方法返回下一个观察、即时奖励、是否结束和附加信息，而新版的step()方法返回下一个观察、即时奖励、是否结束、是否超时和附加信息，多了一个是否超时的返回值：

gymnasium.Env.step(self, action: ActType) → tuple[ObsType, SupportsFloat, bool, bool, dict[str, Any]]

3.2 `wrappers.Monitor`

gymnasium.wrappers.Monitor被移除，直接调用会报以下错误：

AttributeError: module 'gymnasium.wrappers' has no attribute 'Monitor'

gymnasium提供了gymnasium.wrappers.RecordVideo来提供录视频功能：

class gymnasium.wrappers.RecordVideo(env: Env, video_folder: str, 
									episode_trigger: Callable[[int], bool] | None = None, 
									step_trigger: Callable[[int], bool] | None = None, 
									video_length: int = 0, name_prefix: str = 'rl-video', 
									disable_logger: bool = False)