强化学习中的好奇心驱动学习算法:随机网络精馏探索技术

本文介绍了强化学习中的好奇心驱动学习,特别是通过随机网络精馏(RND)技术来应对奖励稀疏的问题。RND利用固定目标网络和预测网络的差异作为内在奖励,促进对新状态的探索,已经在Atari游戏上展示出优越性能,特别是在《蒙特祖马的复仇》中的表现。这种方法有助于解决强化学习在缺乏外部反馈时的挑战。
摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg

本文为翻译发表,转载需要注明来自公众号EAWorld。


作者:Rani Horev

译者:白小白 

原题:Explained: Curiosity-Driven Learning in RL— Exploration By Random Network Distillation

原文:http://t.cn/EL5bylU

全文3860字,阅读约需要9分钟


近年来,强化学习已经被证明是一种强大的技术,用于解决具备常量奖励的封闭任务,以及最常见的游戏场景。该领域的一个主要挑战仍然是,当对于特定行动的外部反馈(奖励)十分稀少或不存在时,如何训练模型。最近的模型试图通过建立一种被称为好奇心的内在的奖励机制来克服这一挑战,当模型发现了新的领域或者状态时,就会触发相关奖励。


OpenAI的一篇新论文,利用随机网络蒸馏(RND)技术,提出了一种新的内部奖励方法。该模型试图预测给定的状态以前是否见过,并对不熟悉的状态给予更大的奖励。


该模型显示了在几个Atari游戏中的最先进的成果,包括众所周知的RL算法难题:《蒙特祖马的复仇》。这被已证明是在分散背景噪声环境下相对简单而有效的方法。


一、背景


强化学习(Reinforcement learning)是一组以奖励为导向的算法,着力于学习如何在不同的状态下通过最大化从环境中获得的回报(即奖励)来采取行动。Atari游戏是一个具有挑战性的强化学习测试平台,研发于30多年以前,提供了丰富的视觉输入(每帧210X160X3)和一组为人类设计的不同种类的任务。


这一系列游戏因其复杂性和外部奖励的频率而各不相同。在《打砖块》游戏中,当你每次击打砖块时,都会得到奖励,而在《蒙特祖马的复仇》和其他游戏中,在某一等级只存在有限的奖励。《蒙特祖马的复仇》之所以被认为是具有挑战性,是因为它需要长时间(数百个步骤)和复杂的行动组合,才能通过致命的障碍并获得奖励。下面的动画说明了游戏之间的区别。


640?wx_fmt=gif

《打砖块》:机器人代理可以经常得到外部奖励,每个砖块一次。


640?wx_fmt=gif

《蒙特祖马的复仇》:唯一的外部奖励是拿到钥匙的时刻


为了在没有频繁的外在奖励的游戏中取得成功,机器人代理必须探索环境,寄希望于发现稀疏的奖励。这些场景在现实生活中很常见,从在家里找到丢失的钥匙到发现新的癌症药物。在这种情况下,机器人代理需要使用独立于外在奖励的内在奖励机制来采取正确的行动。强化学习领域有两种常见的内在奖励方法:


1. 基于计数的方法。这种方法可以对以前访问过的领域进行统计,并对新的状态给予更大的奖励。这种方法的缺点是,随着可能的状态数的增加,它往往变得不那么有效。


2. 另一种方法是“下一状态预测”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值