VLN阅读报告9：Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks

是尘埃呀！

已于 2022-11-11 17:22:45 修改

阅读量650

点赞数 1

分类专栏：论文阅读笔记文章标签：人工智能 python 算法

于 2022-11-09 19:42:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45347379/article/details/127764735

版权

论文阅读笔记专栏收录该内容

25 篇文章

订阅专栏

本文无代码
本文只在r2r数据集上进行实验

Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks

一，介绍
- - 1.1 之前的工作有哪些问题
  - 1.2 本文怎么做的
实验

摘要： 视觉语言导航（VLN）是一项任务，代理按照自然语言指令进行学习导航。这项任务的关键是依次感知视觉场景和自然语言。传统方法利用跨模态基础中的视觉和语言特征。然而，VLN任务仍然具有挑战性，因为先前的工作忽略了环境中包含的丰富语义信息（如隐式导航图或子轨迹语义）。
在本文中，我们介绍了辅助推理导航（AuxRN），这是一个具有四个自监督辅助推理任务的框架，以利用从语义信息中导出的附加训练信号。辅助任务有四个推理目标：解释先前的动作、估计导航进度、预测下一个方向以及评估轨迹一致性。
因此，这些额外的训练信号有助于主体获取语义表示的知识，以便推理其活动并建立对环境的彻底感知。我们的实验表明，辅助推理任务大大提高了主任务的性能和模型的可概括性。从经验上看，我们证明了用自我监督辅助推理任务训练的代理大大优于先前最先进的方法，这是标准基准上现有的最佳方法。

一，介绍

1.1 之前的工作有哪些问题

过去的行动会影响未来的行动。要采取正确的行动，代理人必须彻底了解其过去的活动。
代理无法将轨迹与指令显式对齐，因此，不确定视觉语言编码是否能够完全表示代理的当前状态。
代理人无法准确评估其取得的进度。
由于导航图中只有相邻节点是可到达的，因此代理的动作空间是隐式限制的。因此，如果代理获得导航地图的知识并了解其下一个动作的结果，导航过程将更加准确和高效

1.2 本文怎么做的

本文提出了以下几个辅助学习任务：

轨迹复述任务，使agent通过自然语言生成解释其先前的行为；
2）进度估计任务，用于评估模型完成的轨迹百分比；
3）角度预测任务，用于预测agent下一次转弯的角度。
4）一种跨模式匹配任务，允许agent将视觉和语言编码对齐。

在这里插入图片描述
$\tilde{f^{o}_{t}}$ ,表示视觉内容

$\bar{f}^w$ ,表示语言内容

$\hat{f_{t}}$ ,表示跨模态内容

Trajectory Retelling Task
在这里插入图片描述

Progress Estimation Task
$r_t$ 是steps的百分比
在这里插入图片描述

Cross-modal Matching Task
shuffled feature $\bar{f^{'}}^w$
在这里插入图片描述

Angle Prediction Task

在这里插入图片描述

实验

Single Run: without see-
ing the unseen environments and
Pre-explore: finetuning
a model in the unseen environments with self-supervised
approach.
Beam Search: predicting the trajectories with
the highest rate to success.

在这里插入图片描述

Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation. CVPR,2019 best-student paper
提出了一个匹配评判家，可以参考这个： https://blog.csdn.net/qq_40711769/article/details/104735036

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。