Efficient Text-based Reinforcement Learning by Jointly LeveragingState and Commonsense Graph Repres

摘要

基于文本的游戏(TBGs)已经成为评估基础语言理解和强化学习(RL)交叉阶段进展的有用基准。最近的工作提出了使用外部知识来提高TBG的RL制剂的效率。在本文中,我们假设为了在TBG中有效地行动,代理必须能够在检索和使用相关常识知识的同时跟踪游戏的状态。因此,我们为TBG提出了一个代理,它可以诱导游戏状态的图形表示,并将其与来自ConceptNet的常识知识图形结合起来。这种结合是通过两个符号表示之间的双向知识图注意来实现的。我们表明,将常识纳入博弈状态图的代理优于基线代理。

1.介绍

基于文本的游戏(tbg)是一种模拟环境,在这种环境中,代理完全以文本的形式与世界进行互动。TBG已经成为研究强化学习代理如何解决语言理解、部分可观察性和在组合大的动作空间中生成动作的挑战的关键基准。TextWorld (Côté et al., 2018)是一个基于文本的游戏环境,近年来备受关注。

最近的工作表明,需要更多的知识来解决TBG中的挑战。Ammanabrolu和Riedl(2019)提出了手工制作的规则,使用状态知识图(很像游戏地图)来表示游戏的当前状态。我们自己之前的工作(Murugesan等人,2021年)提出了TextWorld的扩展,称为TextWorld Commonsense (TWC),以测试代理在与世界交互时使用常识知识的能力。TWC背后的假设是,常识知识使行为主体能够理解当前的行为如何影响未来的世界状态;并支持前瞻性规划(Juba, 2016),从而导致在每一步的行动的样本高效选择,并推动代理更接近最佳性能。

在本文中,我们假设要在这种基于文本的游戏环境中有效地行动,代理必须能够有效地跟踪游戏的状态,并利用该状态联合检索和利用相关常识知识。例如,常识知识,如苹果应该放在冰箱里,将有助于代理行为更接近最佳行为;而像苹果在桌子上这样的状态信息会帮助代理更有效地计划。因此,我们提出了一种技术:

(a)以符号图的形式跟踪游戏状态,该符号图代表了主体对世界状态的当前信念(Ammanabrolu和Hausknecht, 2020a;Adhikari等人,2020);

(b)从ConceptNet检索相关常识知识(Speer et al., 2017),

(c)联合利用状态图和检索到的720个常识图。这些综合的信息被用来选择最优的行动。最后,我们演示了我们的代理与TWC环境上最先进的基线代理的性能。

2.相关工作

2.1Text-based reinforcement learning

基于文本的游戏最近成为推动RL研究进展的一个有前途的框架。之前的工作探索了基于文本的RL学习基于外部文本语料库(Branavan等人,2012年)或从文本观察(Narasimhan等人,2015年)的策略。在这两种情况下,我们都会分析文本,并利用来自游戏环境的反馈共同学习控制策略。Zahavy等(2018)提出了action - elimination Deep Q-Network (AE-DQN),学习对无效动作进行分类,减少动作空间。在我们的工作中使用常识和状态图具有相同的目标,即通过对游戏状态和先验知识的联合推理来降低不合理行为的权重。最近,Côté等人(2018)介绍了TextWorld, Murugesan等人(2021)提出了TextWorld Commonsense (TWC),这是一种基于文本的游戏环境,需要代理利用先验知识来解决游戏。在这项工作中,我们以Murugesan等人(2021)的代理为基础,表明先验知识和状态信息是互补的,应该联合学习。

2.2KG-based state representations

tbg中最近的一项工作旨在通过使用代理信念的符号表示来提高泛化性能。值得注意的是,Ammanabrolu和Riedl(2019)提出了KG-DQN, Ammanabrolu和Hausknecht (2020b)提出了KGA2C。这两种方法背后的理念都是将游戏状态表示为信念图。最近,Adhikari等人(2020)提出了图形辅助变压器代理(GATA),一种在规划过程中构建和更新潜在信念图的方法。我们的工作将这些基于图形的状态表示与先验常识图集成在一起,允许代理使用先验知识更好地建模游戏状态。

2.3Sample-efficient reinforcement learning

目前RL研究的一个关键挑战是低样本效率(Kaelbling et al., 1998)。为了解决这个问题,在RL方法中添加先验或外部知识的尝试很少。值得注意的是,Murugesan等人(2020)提出使用从ConceptNet中提取的先验知识。Garnelo等人(2016)提出了深度符号RL,它依靠符号AI技术作为引入常识先验的一种方式。还有关于政策转移的研究(Bianchi等人,2015年),旨在重用在不同环境中获得的知识。体验重放(Wang et al., 2016;Lin, 1992, 1993)提供了一个如何存储以前的经验并在以后重用的框架。在本文中,继Murugesan等人(2020)之后,我们使用外部KGs作为先验知识的来源,并将这种知识表示与基于图的状态建模相结合,以使代理能够更有效地行动。

3.模型与架构

我们的模型的高级架构包含三个主要组件:(a)输入编码器;(b)基于图的知识提取器;(c)动作预测模块。输入编码层用于编码时间步t的观察结果和使用GRUs的可接受动作列表(Ammanabrolu和Hausknecht, 2020a)。基于图的知识提取器从补充的知识来源(游戏状态和外部常识知识)中收集相关知识。我们允许来自每个知识来源的信息来指导和指导更好的代表学习。

最近的工作主要演示了TextWorld RL代理使用两种不同类型的知识来源。状态图(SG)捕获通过基于语言的语义图表示的环境的状态信息(Ammanabrolu和Riedl, 2019)。图2中的示例显示了从环境的文本观察中提取Apple→on→Table等信息。具体来说,Ammanabrolu和Riedl(2019)通过使用OpenIE (Angeli等人,2015)和一些手动启发式提取信息来创建这种知识图。常识图(CG)捕获实体之间的外部常识知识(Murugesan等人,2021年)(来自常识知识来源,如ConceptNet)。我们假定RL代理可以在不同的子任务中利用这两个图中的信息,从而实现高效学习。SG为代理提供了一种象征性的方式来表示其当前对游戏状态的感知,包括其对周围环境的理解。另一方面,CG为代理提供了关于在给定状态下什么行为有意义的补充类人知识,因此能够更有效地探索非常大的基于自然语言的行为空间。

我们使用双向知识图注意(BiKE)机制将状态信息与常识知识结合起来,该机制将状态图和常识图相互重新上下文化,以获得最佳的行为轨迹。图2提供了一个紧凑的可视化。

4.利用BiKE进行知识集成

图1:TBG的图解,它既需要游戏的状态表示,也需要有效探索和学习最佳行动轨迹的外部常识。观察文本输入状态图和常识图;最佳行动轨迹是根据两张图的信息计算出来的。

Multi-agent reinforcement learning (MARL) is a subfield of reinforcement learning (RL) that involves multiple agents learning simultaneously in a shared environment. MARL has been studied for several decades, but recent advances in deep learning and computational power have led to significant progress in the field. The development of MARL can be divided into several key stages: 1. Early approaches: In the early days, MARL algorithms were based on game theory and heuristic methods. These approaches were limited in their ability to handle complex environments or large numbers of agents. 2. Independent Learners: The Independent Learners (IL) algorithm was proposed in the 1990s, which allowed agents to learn independently while interacting with a shared environment. This approach was successful in simple environments but often led to convergence issues in more complex scenarios. 3. Decentralized Partially Observable Markov Decision Process (Dec-POMDP): The Dec-POMDP framework was introduced to address the challenges of coordinating multiple agents in a decentralized manner. This approach models the environment as a Partially Observable Markov Decision Process (POMDP), which allows agents to reason about the beliefs and actions of other agents. 4. Deep MARL: The development of deep learning techniques, such as deep neural networks, has enabled the use of MARL in more complex environments. Deep MARL algorithms, such as Deep Q-Networks (DQN) and Deep Deterministic Policy Gradient (DDPG), have achieved state-of-the-art performance in many applications. 5. Multi-Agent Actor-Critic (MAAC): MAAC is a recent algorithm that combines the advantages of policy-based and value-based methods. MAAC uses an actor-critic architecture to learn decentralized policies and value functions for each agent, while also incorporating a centralized critic to estimate the global value function. Overall, the development of MARL has been driven by the need to address the challenges of coordinating multiple agents in complex environments. While there is still much to be learned in this field, recent advancements in deep learning and reinforcement learning have opened up new possibilities for developing more effective MARL algorithms.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小蜗子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值