强化学习中的好奇心驱动学习算法：随机网络精馏探索技术-CSDN博客

本文链接：https://blog.csdn.net/weixin_45443931/article/details/98869614

本文介绍了强化学习中的好奇心驱动学习，特别是通过随机网络精馏（RND）技术来应对奖励稀疏的问题。RND利用固定目标网络和预测网络的差异作为内在奖励，促进对新状态的探索，已经在Atari游戏上展示出优越性能，特别是在《蒙特祖马的复仇》中的表现。这种方法有助于解决强化学习在缺乏外部反馈时的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

640?wx_fmt=jpeg

本文为翻译发表，转载需要注明来自公众号EAWorld。

作者：Rani Horev

译者：白小白

原题：Explained: Curiosity-Driven Learning in RL— Exploration By Random Network Distillation

原文：http://t.cn/EL5bylU

全文3860字，阅读约需要9分钟

近年来，强化学习已经被证明是一种强大的技术，用于解决具备常量奖励的封闭任务，以及最常见的游戏场景。该领域的一个主要挑战仍然是，当对于特定行动的外部反馈（奖励）十分稀少或不存在时，如何训练模型。最近的模型试图通过建立一种被称为好奇心的内在的奖励机制来克服这一挑战，当模型发现了新的领域或者状态时，就会触发相关奖励。

OpenAI的一篇新论文，利用随机网络蒸馏(RND)技术，提出了一种新的内部奖励方法。该模型试图预测给定的状态以前是否见过，并对不熟悉的状态给予更大的奖励。

该模型显示了在几个Atari游戏中的最先进的成果，包括众所周知的RL算法难题：《蒙特祖马的复仇》。这被已证明是在分散背景噪声环境下相对简单而有效的方法。

一、背景

强化学习（Reinforcement learning）是一组以奖励为导向的算法，着力于学习如何在不同的状态下通过最大化从环境中获得的回报（即奖励）来采取行动。Atari游戏是一个具有挑战性的强化学习测试平台，研发于30多年以前，提供了丰富的视觉输入（每帧210X160X3）和一组为人类设计的不同种类的任务。

这一系列游戏因其复杂性和外部奖励的频率而各不相同。在《打砖块》游戏中，当你每次击打砖块时，都会得到奖励，而在《蒙特祖马的复仇》和其他游戏中，在某一等级只存在有限的奖励。《蒙特祖马的复仇》之所以被认为是具有挑战性，是因为它需要长时间（数百个步骤）和复杂的行动组合，才能通过致命的障碍并获得奖励。下面的动画说明了游戏之间的区别。

640?wx_fmt=gif