本文为翻译发表,转载需要注明来自公众号EAWorld。
作者:Rani Horev
译者:白小白
原题:Explained: Curiosity-Driven Learning in RL— Exploration By Random Network Distillation
原文:http://t.cn/EL5bylU
全文3860字,阅读约需要9分钟
近年来,强化学习已经被证明是一种强大的技术,用于解决具备常量奖励的封闭任务,以及最常见的游戏场景。该领域的一个主要挑战仍然是,当对于特定行动的外部反馈(奖励)十分稀少或不存在时,如何训练模型。最近的模型试图通过建立一种被称为好奇心的内在的奖励机制来克服这一挑战,当模型发现了新的领域或者状态时,就会触发相关奖励。
OpenAI的一篇新论文,利用随机网络蒸馏(RND)技术,提出了一种新的内部奖励方法。该模型试图预测给定的状态以前是否见过,并对不熟悉的状态给予更大的奖励。
该模型显示了在几个Atari游戏中的最先进的成果,包括众所周知的RL算法难题:《蒙特祖马的复仇》。这被已证明是在分散背景噪声环境下相对简单而有效的方法。
一、背景
强化学习(Reinforcement learning)是一组以奖励为导向的算法,着力于学习如何在不同的状态下通过最大化从环境中获得的回报(即奖励)来采取行动。Atari游戏是一个具有挑战性的强化学习测试平台,研发于30多年以前,提供了丰富的视觉输入(每帧210X160X3)和一组为人类设计的不同种类的任务。
这一系列游戏因其复杂性和外部奖励的频率而各不相同。在《打砖块》游戏中,当你每次击打砖块时,都会得到奖励,而在《蒙特祖马的复仇》和其他游戏中,在某一等级只存在有限的奖励。《蒙特祖马的复仇》之所以被认为是具有挑战性,是因为它需要长时间(数百个步骤)和复杂的行动组合,才能通过致命的障碍并获得奖励。下面的动画说明了游戏之间的区别。
《打砖块》:机器人代理可以经常得到外部奖励,每个砖块一次。
《蒙特祖马的复仇》:唯一的外部奖励是拿到钥匙的时刻
为了在没有频繁的外在奖励的游戏中取得成功,机器人代理必须探索环境,寄希望于发现稀疏的奖励。这些场景在现实生活中很常见,从在家里找到丢失的钥匙到发现新的癌症药物。在这种情况下,机器人代理需要使用独立于外在奖励的内在奖励机制来采取正确的行动。强化学习领域有两种常见的内在奖励方法:
1. 基于计数的方法。这种方法可以对以前访问过的领域进行统计,并对新的状态给予更大的奖励。这种方法的缺点是,随着可能的状态数的增加,它往往变得不那么有效。
2. 另一种方法是“下一状态预测”