Enhancing Text-based Reinforcement Learning Agentswith Commonsense Knowledge

摘要

在本文中,我们考虑了利用基于文本的环境和游戏作为评估环境来评估强化学习技术进展的最新趋势。这种对文本的依赖使自然语言处理的进步进入了这些代理的范围,一个循环的线程是使用外部知识来模仿和更好的人类水平的性能。我们展示了一个这样的代理实例,它使用来自ConceptNet的常识知识,在两个基于文本的环境中显示出良好的性能。

1.介绍

多年来,模拟环境和游戏被广泛用于展示和推动强化学习技术的进步。最近一个受到广泛关注的环境是TextWorld (TW) (Cˆoté等人,2018),其中一个代理必须与外部环境交互以实现目标,同时最大化的回报-所有这些都只使用文本的模式。TextWorld和类似的基于文本的任务试图为基于代理的强化学习技术带来自然语言处理(NLP)和问题回答解决方案的进步,反之亦然。

在一些NLP任务的解决方案中,一个固有的共同线索是,单纯的基于文本的技术无法达到或超过人类水平的性能,NLP系统必须学会如何利用来自外部来源的额外知识,如知识库(KBs)和知识图(KGs),以提高其整体性能。图1展示了一个运行中的例子来说明这一点:在图中,代理必须有效利用的额外知识显示在左下角的ConceptNet标题下。

图1:我们的《Kitchen Cleanup》游戏示意图。机器人通过短信感知世界,并被赋予打扫厨房的任务。如这里所示,代理可以利用来自ConceptNet的常识知识来减少探索并实现目标。

一般来说,利用外部知识来提高自然语言处理任务的准确性已经引起了社会的极大关注。特别是像自然语言推理(NLI)这样的任务,最近的工作(Kapanipathi等人,2020;Wang et al., 2019)的研究表明,虽然外部知识可以带来有用的信息,但这必须与输入系统的新信息的上下文相关性相平衡。如果这一点做得不好,就会有非常大的风险,让代理/算法承受过多的信息,导致糟糕的决策和性能。

在本文中,我们提出了一种利用概念网中的外部知识的新方法(Liu和Singh, 2004;Speer et al., 2017)知识图,以减少强化学习(RL) agent的探索空间。具体来说,我们考虑一个基于RL的代理,它能够在两个层次上对周围的世界建模——一个描述其当前对世界状态的信念的局部或信念图;以及与这种状态相关的实体的全局或常识性图表——以及这两个层次之间的相互作用。信念图为代理提供了一种象征性的方式来表示其当前对世界的感知,它可以很容易地与常识图中的象征性常识知识相结合。这个世界及其知识的两级表示遵循图辅助变压器代理(GATA) (Adhikari等人,2020)框架中提出的模型。

使用这个模型,我们能够展示在TextWorld设置中设置的厨房清理任务中RL代理的性能的显著提高。图1展示了这样一个厨房清理任务的示例:给代理一个初始观察(用于生成代理的信念图的第一次迭代),最终目标是清理厨房。代理必须生成实现该目标所需的行动列表:该列表在右侧。最后,来自ConceptNet知识图的额外外部知识(它构成了我们代理的全局图)显示在左下角。在这个运行的例子中,agent可能会从ConceptNet发现苹果通常位于冰箱中,而盘子位于橱柜中。我们将使用这个厨房清理实例作为贯穿全文的一个运行示例。

通过评估我们在两个不同任务上的方法——如上所述的厨房清理任务和一个额外的烹饪食谱任务——我们可以表明,与纯基于文本的模型相比,信念图和常识图之间的交互可以减少RL代理的探索。然而,我们也能够证明一个更微妙的点:仅仅为代理提供常识性知识不足以提高其性能。事实上,通常情况下这对代理人的表现是有害的。我们将说明这是由于代理被太多的常识知识所压倒,并讨论不同的任务和设置如何对代理使用的知识有不同的需求。

2.相关工作

我们从与我们关注的领域相关的工作开始,我们将其分为以下三个主要领域。我们的工作位于知识图和常识(和外部)知识的交汇点,以使强化学习更有效;我们的改进展示在TextWorld和邻近的基于文本的域。

2.1 Knowledge Graphs

图表已经成为一种表示知识的常见方式。这些知识图由一组由关系(边)连接起来的概念(节点)组成。众所周知的公开的知识图(KGs)包括Freebase (Bollacker等人,2008年),DBpedia (Auer等人,2007年),WordNet (Miller, 1995年)和ConceptNet (Speer等人,2017年)。每一种知识图谱都包含不同类型的知识。对于我们工作中考虑的任务,我们发现在ConceptNet中可用的常识知识比来自DBpedia或Freebase的百科知识更适合——因此我们关注这一点。因为我们的方法认为KG是一种通用的图结构,所以可以使用这里提到的任何KG结构。

知识图已被用于执行推理,以提高各个领域的性能,特别是在NLP社区内。特别是,KGs已被用于诸如实体链接(Hoffart等人,2012)、问题回答(Sun等人,2018;Das等人,2017;Atzeni和Atzori, 2018),情感分析(调养等人,2015;Atzeni等人,2018)和自然语言推理(Kapanipathi等人,2020)。已经探索了不同的技术来使用它们。在大多数情况下,知识图嵌入如TransH (Wang et al., 2014)和ComplEx (Trouillon et al., 2016)被用于向量化KG中的概念和关系,作为学习框架的输入。强化学习也被用于在知识库问答的知识图中寻找相关路径(Das et al., 2017)。Sun等人(2018)和Kapanipathi等人(2020)从对应的KGs中找到子图,并使用图卷积网络(Kipf和Welling, 2016)对它们进行编码,分别用于问题回答和自然语言推理。

2.2样本高效强化学习的外部知识

当前强化学习(RL)技术面临的一个关键挑战是样本效率低(Kaelbling et al.1998)。RL技术需要与环境进行大量的交互,这可能非常昂贵。这阻碍了RL在现实世界决策问题中的使用。相比之下,人类拥有丰富的常识知识,可以帮助他们在信息不完整的情况下解决问题。

受此启发,最近有一些尝试将先验或外部知识添加到RL方法中。值得注意的是,Garnelo等人(2016)提出了深度符号RL,它将符号AI与神经网络和强化学习相结合,作为引入常识先验的一种方式。然而,他们的工作主要是理论性的。也有一些关于政策转移的研究(Bianchi et al., 2015),研究在一个环境中获得的知识如何在另一个环境中重复使用;和体验回放(Wang et al., 2016;Lin, 1992, 1993),它研究了代理之前的经验如何被存储,然后再利用。与上述不同,在本文中,我们探索使用存储在知识图(如ConceptNet)中的常识性知识来提高基于文本的RL代理的样本效率。据我们所知,之前没有研究过如何使用常识知识使RL代理更有效。

2.3RL环境和TextWorld

游戏是一个丰富的领域,用于研究基础语言和如何将文本信息用于受控应用。值得注意的是,在这方面的研究中,Branavan等人(2012)创造了一款基于rl的游戏玩家,利用文本手册学习《文明2》的策略;和Narasimhan等人(2015)为多用户地下城游戏构建了一个基于rl的游戏玩家。在这两种情况下,分析文本和控制策略是联合学习使用反馈的游戏环境。同样地,在视觉领域,人们也致力于创造自动电子游戏玩家(Koutn´ık et al., 2013;Mnih等人,2016)。

我们的工作基于最近推出的基于文本的游戏TextWorld (Cˆoté等人,2018)。TextWorld是一个沙盒学习环境,用于在基于文本的游戏中训练和评估基于rl的代理。自从引入它和其他类似的工具以来,已经有大量的工作致力于提高这个基准的性能。TextWorld的一个有趣的工作方向是学习代理对世界状态的信念的符号(通常是图形)表示。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Adhikari等人(2020)提出了GATA;两者都将游戏状态表示为探索过程中学习到的信念图。此图用于修剪操作空间,使探索更有效。类似的构建动态信念图的方法也在程序文本的机器理解中得到了探索(Das等人,2018年)。在我们的工作中,我们也用信念图来表示世界。此外,我们还探索如何将信念图与常识知识结合起来进行有效的探索。

LeDeepChef系统(Adolphs and Hofmann, 2019)研究了基于文本的RL代理在不熟悉的家庭环境中学习将烹饪技能转移到从未见过的食谱时的泛化能力,这也与我们的工作有关。他们通过使用Freebase中最常见的食物列表来监督模型,从而实现转移,允许他们的代理推广到迄今未见过的食谱和配料。

最后,Zahavy等人(2018)提出了行动消除深度q -网络(AE-DQN),它学习预测文本冒险游戏《Zork》中的无效行动,并使用上下文强盗消除它们。这使得模型能够有效地处理较大的操作空间。在我们的工作中使用常识知识,可能会对不可信的行为产生同样的影响。

3.TextWorld as a POMDP

基于文本的游戏可以被视为部分可观察的马尔可夫决策过程(POMDP) (Kaelbling et al., 1998),其中系统动态是由MDP决定的,但代理不能直接观察潜在状态。当一个代理与一个TextWorld游戏实例交互时,在每个回合中,有几行文本描述游戏的状态;玩家可以发出文本命令以某种理想的方式改变状态(游戏邦注:通常是为了朝着目标前进)。

形式上,让(S,T,A,Ω,O,R,γ)表示底层的TextWorld POMDP。其中,S表示状态集,A表示作用空间,T表示状态转移概率,Ω表示观测集,O表示条件观测概率集,γ∈[0,1]为折现因子。agent在时间步t的观察值依赖于当前状态st和之前在at−1的动作。agent在时间步t收到奖励:rt = R(st,at), agent的目标是使期望的奖励折现总和最大化:

TextWorld允许代理通过文本的形式感知环境并与之交互。

 4.模型描述

图2:我们的模型在任何给定的时间步上的决策制定概述。我们的模型由以下组成部分组成:(a)输入编码器,编码可接受的行为和观察;(b)信念图,捕捉agent对当前状态的信念;(c)常识KG,由agent提取的ConceptNet子图;(d)信念图和提取的常识KG的知识集成; 

为了解决上述POMDP问题,我们设计了一个模型,该模型可以利用常识知识并学习其世界状态信念的图结构表示。该模型的高层架构包含三个主要组件,即输入编码器、基于图形的知识提取器和动作预测模块。

输入编码层用于编码时间步长t的观测值和可容许动作列表。

基于图的知识提取器试图从两个不同的来源提取知识。

首先,利用外部常识性知识,提高agent在每个时间步选择正确动作的能力;

其次,agent感知到的关于环境(世界状态)的信念也被一个信念图捕获,这个信念图是根据游戏中的文本观察动态生成的。然后将来自两个源的信息聚合到一个图中。

动作预测模块以编码后的观察预留状态、编码后的可接受动作列表和编码后的聚合图作为输入,对每一步预测一个动作。图2提供了我们方法的精简可视化。我们将在下面描述模型的各个组件。

4.1输入编码

 o--->x     a---->c

 4.2基于图的知识集成

我们增强了基于文本的RL代理,允许它访问一个图表,该图表捕捉了常识知识和代理当前对世界状态的信念。形式上,我们假设,在每个时间步t,代理访问一个图Gt = (Vt,Et),其中Vt是节点的集合,Et⊆V 2t表示图的边。图在每一步t动态更新,并根据文本观察增加或删除新的节点。

 

如前所述,Gt编码了常识知识和世界国家的信仰。通过将文本中提到的实体Actions链接到外部KG,常识知识从观察的历史中提取出来。这允许提取常识知识图,这是外部知识来源的子图,提供有关相关实体的信息。在我们的实验中,我们使用ConceptNet (Speer et al., 2017)作为外部知识图。另一方面,在Adhikari等人最近的工作中,观察结果也被用于更新动态生成的信念图。基于实体提及,通过合并信念知识图和常识知识图来实现图的聚合。这有助于减少从更新信念图和常识图中提取的噪声。如图2所示,根据观察结果更新常识知识图和信念图,然后将它们聚合成单个图Gt。图Gt在时间步长t时,由图编码器处理如下。首先,利用预训练的KG嵌入将节点集Vt映射为特征矩阵

 

(图卷积网络)层(Kipf and Welling, 2016),其中L是模型的超参数。这个过程的输出是一个更新的矩阵Zt = [z1t,…,z|V | t]∈Rh×|Vt|。然后我们通过对Zt的列进行简单的平均,来计算一个编码gt为gt的图,即:

在我们的实验中,除了图编码gt之外,我们使用更新的KG嵌入为每个动作创建一个基于图的编码向量,如4.1节所述。这种方法已经证明在每个时间步骤中可以更好地集成知识图。

4.3行动的预测

 

其中W1,W2,b1, b2是模型的可学习参数。然后,代理选择的最终操作将由具有最大概率得分的操作给出,即ˆat = arg maxi pt,i。

4.4学习

遵循FirstTextWorld竞赛的获胜策略(Adolphs和Hofmann, 2019年),我们使用优势行动者-批评者(A2C)框架(Mnih等人,2016年)来训练agent,并优化训练游戏奖励信号的行动选择器。

5.实验

在本节中,我们报告了一些实验,以研究基于常识的RL代理在TextWorld环境中的作用。我们在两组游戏实例中评估和比较我们的代理:1)Kitchen Cleanup Task和2)Cooking Recipe Task。

5.1厨房清理任务

首先,我们使用TextWorld (Cˆoté等人,2018)生成一个游戏/任务,使用常识知识图(如ConceptNet)来评估性能增益。我们生成的游戏包含10个与游戏相关的物体,以及5个分散在房间中的分散物体。代理人的目标是通过把物品放在正确的地方来整理房间(厨房)。我们为代理创建了一组现实的厨房清洁目标:例如,从桌子上拿走苹果,把苹果放进冰箱。由于映射到房间里物体的概念信息明确地在ConceptNet中提供(苹果→AtLocation→冰箱),创造这款游戏的主要假设是,利用常识知识可以让代理获得更高的奖励,同时减少与环境的交互次数。

向智能体提供厨房的文本描述,包括厨房中不同物体的位置以及它们与其他物体的空间关系。代理使用此信息来选择在环境中执行的下一个操作。每当代理获取一个对象并将其放在目标位置时,它就会获得奖励,其总得分将增加1分。agent在这个厨房清理任务中所能获得的最大分数是10。除了文本描述外,我们还基于文本描述从概念网中提取常识知识图。图3显示了在代理与环境交互期间创建的常识知识图的一个实例。请注意,即使对于我们建模的简单厨房清理任务(参见图1获取详细信息),常识知识图也包含超过20个实体(节点)和类似数量的关系(边)。这种可视化是有用的,因为它为我们即将进行的关于代理被太多常识淹没的讨论提供了基础。

图3:从概念网中提取厨房清理任务的常识知识图示例

厨房清洁的结果

我们将我们的知识感知RL代理(KG Full和KG evolution)与两个基线进行性能比较:随机,代理在每一步随机选择一个动作;以及Simple,即代理只使用文本描述选择下一个动作,而忽略常识知识图。另一方面,具有知识感知的RL代理使用常识知识图来选择下一步行动。该图表以一种完整图表的形式呈现,即在游戏开始时呈现所有对象之间的常识性关系(KG Full);或者进化图设置,其中只有代理看到/交互的对象之间的常识性关系,直到显示当前步骤(KG Evolve)。我们记录每个代理取得的平均分数以及与环境的平均交互(移动)次数作为我们的评估指标。图4显示了厨房清理任务平均运行5次后的结果,每次运行500集。

图4:有和没有常识知识(Conceptnet)的Kitchen Cleanup任务的代理与平均分数和平均移动(平均超过5次运行)的比较。

厨房清洁的探讨 

正如预期的那样,我们看到使用文本描述和常识知识的代理比基线随机代理表现更好。我们也能够清楚地证明,在agent的学习过程中,知识感知型agent在常识知识的帮助下逐渐超越简单agent,使agent更加专注于探索,并推动其向与其他目标相关的概念发展。这些结果也可以被视为对更广泛的NLP文献(Kapanipathi等人,2020)中显示的类似结果的以rl为中心的代理验证。

5.2烹饪食谱任务

接下来,我们通过使用由(Adhikari et al., 2020)生成的20个不同的游戏来评估我们的代理在烹饪食谱任务上的表现。这些游戏遵循基于食谱的烹饪主题,在一个房间中只有一种原料(难度等级1)。游戏的目标是收集特定的原料,从给定的食谱中准备一顿饭。

与前面的任务一样,我们将我们的代理与Simple代理进行比较。除了简单的代理,我们还将我们的代理与GATA代理(Adhikari等人,2020)进行比较,后者使用信念图进行有效的规划和推广。正如本文所使用的那样,基于环境的文本描述,信念图表示当前游戏的状态。与常识知识类似,信念图可以作为一个完整图(GATA Full)或一个进化图(GATA Evolve)提供给代理,然后聚合为当前图。值得注意的是,在TextWorld环境中,全信度图被认为是基础真值状态信息:它是TextWorld环境内部用来修改状态信息和允许行为列表的图。另一方面,基于观测状态信息生成演化信念图。

烹饪食谱的结果

我们将简单的和GA的TA代理与我们的使用从ConceptNet中提取的常识知识的代理进行比较。与之前一样,我们考虑的是全图设置和进化图设置,即在游戏一开始便提供完整的常识图,或者随着游戏的发展而逐步提供。对于这个任务,我们将常识知识图与信念图(信念+KG充分和信念+KG进化)进行聚合。图5显示了平均运行5次并运行20个游戏后的结果,每次运行100集。如前所述,所有的代理都优于简单代理,这表明使用不同的状态表示(如信念图)和附加信息(如常识知识)可以提高代理的性能。

图5:用于Cooking Recipe任务的代理与信念图和/或常识图的比较(平均超过5次运行)。

烹饪食谱的探讨 

我们观察到,GATA和believe +KG的进化图设置都比believe +KG Full的表现更好,因为输入更多的信息会导致前面任务中观察到的噪声探索。更有趣的是,我们观察到GATA Full的性能明显优于其他制剂。我们认为造成这一结果的原因在于任务的难度以及这些烹饪游戏的生成过程。因为烹饪食谱任务(难度等级1)需要从代理所在的同一个房间中检索单一的原料,所以不存在与当前状态相关的有意义的概念,可以从常识知识中获得更好的探索。即使在这个游戏环境中设置了困难的任务(游戏邦注:难度达到10级,3种食材分布在6个房间中),食材也是随机选择并分布在各个房间中。在这样的游戏设置中,基础真理全信念图比常识知识图更有益。这是一个有趣的负面结果,因为它表明,仍然存在常识知识不一定能帮助代理的场景和领域。我们正在积极探索烹饪食谱任务的进一步设置,以便更好地理解和框架这一效果。

6.结论

以前的文本游戏方法,如TextWorld,主要关注文本理解和强化学习控制策略,因此样本效率不高。比之下,人类利用他们的常识知识在世界上有效地行动。作为弥补这一差距的一个步骤,我们研究了使用常识性知识为基于文本的游戏构建高效的RL代理的新问题。我们提出了一种技术,它象征性地表示代理对世界的信念,然后将这种信念与ConceptNet知识图中的常识知识结合起来,以便在世界中行动。我们在多个任务和环境中评估了我们的方法,并表明常识性知识可以帮助代理高效和准确地行动。我们还展示了一些有趣的负面结果,即代理被太多的常识所淹没。我们目前正在积极研究这一问题,未来的工作将更详细地报道这一现象。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小蜗子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值