Prevalent：视觉语言导航预训练模型

最新推荐文章于 2023-02-02 12:00:28 发布

Civisky

最新推荐文章于 2023-02-02 12:00:28 发布

阅读量306

点赞数

原文链接：https://arxiv.org/abs/2002.10638

版权

在视觉环境中按照自然语言指令进行导航是一项挑战，因为智能体的多模态输入是高度可变的，并且新任务的训练数据通常是有限的。作者针对视觉语言导航(Vision-and-Language Navigation，VLN)任务，提出了遵循预训练和微调范式的VLN模型Prevalent。作者在大量图像-文本-动作三元组数据集上对模型进行了自监督预训练，使其能够提供视觉环境和语言指令的通用表示。Prevalent在新任务上的学习效率更高，在陌生环境中的泛化性能更好。作者在R2R(Room-to-Room)、CVDN(Cooperative Vision-and-Dialogue Navigation)、HANNA(Help Anna)三个VLN任务上对其性能进行了验证，Prevalent将R2R任务的SOTA成绩从47%提高到了51%，并且刷新了CVDN、HANNA任务的SOTA成绩。

图1展示了VLN的预训练和微调范式，其中图像-文本-动作三元组是从R2R数据集中收集的。作者在掩码语言建模（Masked Language Modeling）和动作预测（Action Prediction）两项任务上对Prevalent进行了预训练，并在R2R、CVND、HANNA三项任务上对其进行了微调。