Scaling Data Generation in Vision-and-Language Navigation
最近对语言引导视觉导航的研究表明,对可穿越环境的多样性和训练通用智能体的监督数量有很大的需求。为了解决现有视觉和语言导航数据集中常见的数据稀缺问题,我们提出了一种生成大规模学习数据的有效范例,该范例应用来自 HM3D 和 Gibson 数据集的 1200 多个逼真环境,并使用网络上完全可访问的资源合成 490 万个指令轨迹对。重要的是,我们研究了该范例中每个组件对智能体性能的影响,并研究如何充分应用增强数据来预训练和微调智能体。
原创
2023-12-11 10:24:53 ·
906 阅读 ·
0 评论