Prevalent:视觉语言导航预训练模型

在视觉环境中按照自然语言指令进行导航是一项挑战,因为智能体的多模态输入是高度可变的,并且新任务的训练数据通常是有限的。作者针对视觉语言导航(Vision-and-Language Navigation,VLN)任务,提出了遵循预训练和微调范式的VLN模型Prevalent。作者在大量图像-文本-动作三元组数据集上对模型进行了自监督预训练,使其能够提供视觉环境和语言指令的通用表示。Prevalent在新任务上的学习效率更高,在陌生环境中的泛化性能更好。作者在R2R(Room-to-Room)、CVDN(Cooperative Vision-and-Dialogue Navigation)、HANNA(Help Anna)三个VLN任务上对其性能进行了验证,Prevalent将R2R任务的SOTA成绩从47%提高到了51%,并且刷新了CVDN、HANNA任务的SOTA成绩。

图片

图1展示了VLN的预训练和微调范式,其中图像-文本-动作三元组是从R2R数据集中收集的。作者在掩码语言建模(Masked Language Modeling)和动作预测 (Action Prediction)两项任务上对Prevalent进行了预训练,并在R2R、CVND、HANNA三项任务上对其进行了微调。

图片

图片

预训练模型旨在为VLN任务的图像文本输入提供联合表示。图2展示了视觉嵌入和文本嵌入的表示过程。图3给出了模型的整体架构。

图片

表1比较了Prevalent与现有模型在R2R任务上的性能,结果表明,Prevalent在SR和SPL上的性能大大优于现有模型。

图片

表2和表3分别给出了Prevalent在CVND、HANNA两项任务上的实验结果,作者观察到,Prevalent能够很好地适应新任务,并且有很好的泛化能力。

结论

作者针对视觉语言导航任务,提出了遵循预训练和微调范式的Prevalent。Prevalent能够高效利用有限的训练数据集,在新任务上的学习效率更高,在陌生环境中的泛化性能更好。作者在R2R、CVDN、HANNA三个VLN任务上对其性能进行了验证,结果表明,Prevalent比现有方法有很大的提升。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值