论文信息
题目:Vision-Language Navigation with Continual Learning
视觉-语言导航与持续学习
作者:Zhiyuan Li, Yanfeng Lv, Ziqin Tu, Di Shang, Hong Qiao
论文创新点
-
VLNCL范式:这是一个新颖的框架,它使得智能体能够在适应新环境的同时,保留从先前任务中获得的知识,这对于实际应用中的泛化能力至关重要。
-
双循环场景重放(DualSR):文章引入了一种新的双循环场景重放方法,该方法受大脑记忆重放机制的启发,并与VLN智能体集成,有助于巩固过去的经验并增强跨新任务的泛化能力。
-
多场景记忆缓冲区:设计了一个基于任务域的记忆缓冲区,允许智能体存储和重放来自不同场景的记忆,从而有效地保留多样化的环境知识。
-
持续学习评估指标:提出了两个新的评估指标——未见转移(UT)和已见转移(ST),用于评估智能体的知识转移和持续学习能力。
摘要
视觉-语言导航(VLN)是嵌入式智能领域的关键领域,要求智能体根据自然语言指令在3D环境中进行导航。传统的VLN研究主要集中在提高环境理解和决策准确性上。然而,这些方法在智能体部署到新环境时通常表现出显著的性能差距,主要是由于训练数据的多样性有限。扩展数据集以覆盖更广泛的环境是不切实际且成本高昂的。我们提出了视觉-语言导航与持续学习(VLNCL)范式来解决这一挑战。在这一范式中,智能体在保留先前获得的知识的同时,逐步学习新环境。VLNCL使智能体能够维持环境记忆并提取相关知识,允许快速适应新环境的同时保留现有信息。我们引入了一种新颖的双循环场景重放方法(DualSR),该方法受大脑记忆重放机制的启发,并与VLN智能体集成。这种方法有助于巩固过去的经验,并增强跨新任务的泛化能力。通过使用多场景记忆缓冲区,智能体有效地组织和重放任务记忆,从而增强其快速适应新环境的能力,并减轻灾难性遗忘。我们的工作在VLN智能体中开创了持续学习,引入了新的实验设置和评估指标。我们通过广泛的评估展示了我们方法的有效性,并为VLNCL范式建立了基准。与现有的持续学习和VLN方法的比较实验显示了显著的改进,实现了在持续学习能力方面的最新性能,并突出了我们方法在保留先前知识的同时实现快速适应的潜力。
关键词
视觉-语言导航(VLN),持续学习(CL),灾难性遗忘,知识转移
引言
视觉-语言导航(VLN)对于嵌入式智能领域至关重要。智能体遵循自然语言指令,在3D环境中移动。通过整合自然语言处理、视觉感知和决策制定,智能体能够导航至目的地。大多数VLN研究集中在提高环境理解能力(Hong et al. 2020)和目标决策策略的准确性(Hao et al. 2020)。尽管这些进步显著提高了VLN性能,但仍存在一个关键问题:智能体对多样化未见场景的泛化能力,这对于实际应用至关重要。在实际场景中,智能体必须不断适应新环境,同时保留从先前任务中获得的知识。在已见和未见(Anderson et al. 2018)环境之间的显著性能差距突显了这一挑战。这一问题的主要原因是多样化环境数据的可用性有限,这限制了智能体有效泛化的能力(Zhang, Tan, 和 Bansal 2020)。然而,大规模扩展包含各种环境的数据集是不现实的且昂贵的(Shah et al. 2023)。因此,我们考虑了一种替代方法,引入了持续学习(CL)框架。该框架使智能体能够逐步学习和适应新环境,同时保留从先前任务中获得的知识(Srinivasan et al. 2022)。通过使用这一策略,我们旨在增强VLN智能体的泛化能力,使它们在必须导航不断变化的环境阵列的实际应用中更加健壮和有效。为了使VLN智能体能够从任务中积累知识,处理被称为灾难性遗忘(French 1999)的挑战至关重要。我们将视觉-语言导航任务与之结合,引入了视觉-语言导航与持续学习(VLNCL)范式。智能体必须不断地积累信息并保持以前的知识,通过用新任务激励智能体来实现。这意味着在稳定性和可塑性(Kim et al. 2023)之间保持平衡。此外,考虑到实际任务通常在同一环境中同时发生,我们按场景划分任务以将其提升至智能体。这样,任务被划分为不同的域。基于此,我们提出了双循环场景重放视觉-语言导航智能体(Dual-SR)作为VLNCL的新方法。受休息大脑中记忆重放机制(Zhong, Yan, 和 Xie 2024)的启发,我们设计了一个双循环记忆重放框架,使模型能够在平衡新任务学习的同时巩固早期场景记忆。智能体从记忆缓冲区中随机重放场景记忆,带来以前任务记忆的偏见,而内循环则重视学习新任务(Rolnick et al. 2019)。然后,智能体应用基于元学习的外循环权重更新来平衡新旧权重,同时减轻由单一场景任务数据引起的过拟合问题(Javed 和 White 2019)。此外,为了有效保留多样化的环境知识,我们设计了一个基于任务域的记忆缓冲区,允许智能体存储和重放来自不同场景的记忆。为了评估VLNCL智能体,我们提出了两个指标:未见转移(UT)用于评估知识转移,已见转移(ST)用于评估持续学习。UT通过在新场景中测试智能体来衡量泛化能力,使用未见任务。ST通过在训练后将智能体应用于所有已见任务域来评估持续学习。使VLN智能体能够在新任务中进行持续学习,带来了提高任务性能和增加任务泛化的优势。还进行了广泛的比较实验,与在其他领域使用的几种CL方法和先前的VLN智能体进行了验证,以验证我们方法的进步。实验显示了在持续学习能力方面的最新性能。
总结这项工作的贡献:
- 我们引入了视觉-语言导航与持续学习(VLNCL)范式和指标,使VLN智能体能够适应新未见环境,同时保留先前知识以提高泛化能力。
- 我们提出了双循环场景重放(Dual-SR),这是一种受大脑记忆系统启发的新方法,它使VLN智能体能够进行持续学习。实验结果显示,与基础模型相比,成功率提高了16%。
- 我们设计了一个多场景记忆缓冲区,按环境类型组织任务记忆,促进快速适应和跨场景任务的平衡。
- 我们的工作专注于VLN智能体中的持续学习,减少了灾难性遗忘,并提高了知识转移,为该领域设定了基准。比较实验也证实了其鲁棒性和有效性。
方法
视觉-语言导航设置
视觉-语言导航(VLN)涉及智能体根据视觉输入V和语言指令I导航真实感室内环境。这个问题可以被建模为一个马尔可夫决策过程,其中智能体在每个时间步的状态st代表其在环境中的视觉观察和位置。智能体的策略π将这些状态映射到动作,引导智能体朝向期望的目标。学习过程涉及最小化由智能体策略π生成的轨迹τ上的预期损失:
E τ ∼ π [ ∑ t = 0 T L ( s t , a t ) ] \mathbb{E}_{\tau \sim \pi} \left[ \sum_{t=0}^{T} L(st, at) \right] Eτ∼π[t=0∑TL(st,at)]
其中L(st, at)是每个时间步的损失。通过将I和V投影到一个共同的特征空间中,实现视觉和语言的整合,创建一个联合嵌入空间。这个嵌入允许智能体将视觉线索与语言参考对齐,实现准确导航。
视觉-语言导航与持续学习的公式化
在实际应用中,智能体必须适应未见环境,同时保留先前场景的知识。为此,我们采用了视觉-语言导航(VLN)的持续学习方法,其中验证数据集被分割成多个数据流,模拟不同的任务域。每个数据流由特定场景的任务组成,允许智能体在不忘记先前学习的任务的情况下跨不同环境学习。我们将数据集分割成d个任务域,表示为TD = {td1, td2, …, tdd},其中每个tdi代表一个不同的场景,任务域被认为是独立的。在这个设置中,每个任务域tdi被建模为一个分布Dtdi。我们将VLN设置中的损失函数重新制定为VLNCL设置如下:
E τ ∼ π [ ∑ i = 1 d ∑ t = 0 T i L ( ( s i ) t , ( a i ) t ) ] \mathbb{E}_{\tau \sim \pi} \left[ \sum_{i=1}^{d} \sum_{t=0}^{T_i} L((s^{i})_t, (a^{i})_t) \right] Eτ∼π[i=1∑dt=0∑TiL((si)t,(ai)t)]
其中Ti是任务域tdi的时间范围,(s{i})_t和(a{i})_t分别是智能体在域tdi的时间t的状态和动作。持续学习框架将其推广到多个任务域,允许智能体逐步适应新环境。该框架通过平衡保留知识和促进泛化之间的权衡,提高在未见环境中的性能。
双循环场景重放
在VLNCL设置中,智能体必须最小化遗忘,并通过利用先前知识来提高当前和先前任务的性能。然而,大多数现有的VLN智能体在持续学习方面存在困难,与人类不同,人类通过将感官输入与长期记忆相结合,从少数示例中高效学习(Goelet et al. 1986)。人脑不断地提取和存储知识,通过休息期间的重放加强长期记忆(Dewar et al. 2012)。受此启发,我们为VLN智能体提出了双循环场景重放持续学习(Dual-SR)算法。该算法模拟工作记忆作为内循环,长期记忆作为外循环,创建两个权重更新循环,以平衡先前和当前任务信息,同时增强泛化。
在VLNCL设置中,智能体可能会遇到由于样本有限而导致的过拟合问题。因此,我们利用Reptile算法(Nichol, Achiam, 和 Schulman 2018)中的元更新机制来模仿长期记忆的形成。Reptile算法在效果上等同于MAML(Genzel et al. 201