VLN阅读报告9:Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks

本文无代码
本文只在r2r数据集上进行实验

Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks

摘要: 视觉语言导航(VLN)是一项任务,代理按照自然语言指令进行学习导航。这项任务的关键是依次感知视觉场景和自然语言。传统方法利用跨模态基础中的视觉和语言特征。然而,VLN任务仍然具有挑战性,因为先前的工作忽略了环境中包含的丰富语义信息(如隐式导航图或子轨迹语义)。
在本文中,我们介绍了辅助推理导航(AuxRN),这是一个具有四个自监督辅助推理任务的框架,以利用从语义信息中导出的附加训练信号。辅助任务有四个推理目标:解释先前的动作、估计导航进度、预测下一个方向以及评估轨迹一致性。
因此,这些额外的训练信号有助于主体获取语义表示的知识,以便推理其活动并建立对环境的彻底感知。我们的实验表明,辅助推理任务大大提高了主任务的性能和模型的可概括性。从经验上看,我们证明了用自我监督辅助推理任务训练的代理大大优于先前最先进的方法,这是标准基准上现有的最佳方法。

一,介绍

1.1 之前的工作有哪些问题

  • 过去的行动会影响未来的行动。要采取正确的行动,代理人必须彻底了解其过去的活动。
  • 代理无法将轨迹与指令显式对齐,因此,不确定视觉语言编码是否能够完全表示代理的当前状态。
  • 代理人无法准确评估其取得的进度。
  • 由于导航图中只有相邻节点是可到达的,因此代理的动作空间是隐式限制的。因此,如果代理获得导航地图的知识并了解其下一个动作的结果,导航过程将更加准确和高效

1.2 本文怎么做的

本文提出了以下几个辅助学习任务:

  1. 轨迹复述任务,使agent通过自然语言生成解释其先前的行为;
    2) 进度估计任务,用于评估模型完成的轨迹百分比;
    3) 角度预测任务,用于预测agent下一次转弯的角度。
    4) 一种跨模式匹配任务,允许agent将视觉和语言编码对齐。

在这里插入图片描述
f t o ~ \tilde{f^{o}_{t}} fto~,表示视觉内容

f ˉ w \bar{f}^w fˉw,表示语言内容

f t ^ \hat{f_{t}} ft^,表示跨模态内容

Trajectory Retelling Task
在这里插入图片描述

Progress Estimation Task
r t r_t rt是steps的百分比
在这里插入图片描述

Cross-modal Matching Task
shuffled feature f ′ ˉ w \bar{f^{'}}^w fˉw
在这里插入图片描述

Angle Prediction Task

在这里插入图片描述



实验

  1. Single Run: without see-
    ing the unseen environments and
  2. Pre-explore: finetuning
    a model in the unseen environments with self-supervised
    approach.
  3. Beam Search: predicting the trajectories with
    the highest rate to success.

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation. CVPR,2019 best-student paper
提出了一个匹配评判家,可以参考这个: https://blog.csdn.net/qq_40711769/article/details/104735036

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值