用深度强化学习玩超级马里奥兄弟

最新推荐文章于 2024-10-10 08:39:40 发布

woshicver

最新推荐文章于 2024-10-10 08:39:40 发布

阅读量1.4k

点赞数 2

文章标签：游戏网络神经网络强化学习深度学习

本文链接：https://blog.csdn.net/woshicver/article/details/119792623

版权

本文介绍了如何使用Deep Q-Network和Double Deep Q-Network玩超级马里奥兄弟，通过OpenAI Gym的NES模拟器进行实验。讨论了数据预处理、理论背景，包括DQN和DDQN的高估问题，并展示了五个实验结果，表明DDQN在解决高估问题和训练效率上的优势。

摘要由CSDN通过智能技术生成

介绍

从本文中，你将学习如何使用 Deep Q-Network 和 Double Deep Q-Network（带代码！）玩超级马里奥兄弟。

超级马里奥是任天堂在 1980 年代开发和发行的著名游戏。它是历经多年无需解释的经典游戏名称之一。这是一款2D横向卷轴游戏，让玩家可以控制主角——马里奥。

游戏玩法包括从左到右移动马里奥，从反派中生存下来，获得硬币，以及到达旗帜以清除关卡。马里奥最终需要拯救公主。这些有不同的奖励系统、硬币、反派、漏洞和完成时间。

游戏环境取自 OpenAI Gym，使用 Nintendo Entertainment System (NES) python 模拟器。在本文中，我将展示如何使用深度 Q 网络 (DQN) 和深度双 Q 网络 (DDQN) 算法和PyTorch 库来实现强化学习算法，以检查它们各自的性能。然后评估对每种算法进行的实验。

数据理解和预处理

超级马里奥兄弟的原始观察空间是 240 x 256 x 3 的 RGB 图像。动作空间是 256，这意味着能够采取 256 种不同的可能动作。为了加快我们模型的训练时间，我们使用了gym的包装器函数对原始环境应用了某些转换：

在 4 帧上重复代理的每个动作并减小视频帧大小，即环境中的每个状态都是 4 x 84 x 84 x 1（4 个连续 84 x 84 灰度像素帧的列表）
将像素值归一化到 0 到 1 的范围内
将动作次数减少到 5（仅右）、7（简单动作）和 12（复杂动作）

理论结果

最初，我想使用 Q-learning 执行一个实验，该实验使用二维数组来存储状态和动作对值的所有可能组合。但是，在这种环境设置中，我意识到应用 Q-learning 是不可能的，因为需要存储非常大的 Q-table，而这是不可行的。

因此，本项目使用 DQN 算法作为基线模型。DQN 算法使用 Q-learning 来学习在给定状态下采取的最佳动作，并使用深度神经网络来估计 Q 值函数。

我使用的深度神经网络类型是一个 3 层卷积神经网络，后跟两个完全连接的线性层，每个可能的动作都有一个输出。该网络的工作原理类似于 Q-Learning 算法中的 Q-table。我们使用的目标损失函数是 Huber 损失或 Q 值的平滑平均绝对误差。Huber loss 结合了 MSE 和 MAE 来最小化目标函数。我们用来优化目标函数的优化器是 Adam。

但是，DQN 网络存在高估的问题。