帅你一脸的臭宝-CSDN博客

原创 Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation

1.问题背景和现有方法VLN任务：这是一种复杂的任务，要求智能体基于视觉输入和自然语言指令进行导航。现有方法的局限性：之前的工作大多将这个问题表示为离散的导航图，智能体的动作空间是有限的、离散的。2.新提出的设置Robo-VLN：这篇论文提出了一种新的任务环境，名为Robo-VLN。该设置更加复杂，因为智能体不再局限于离散的导航图，而是在连续的三维重建环境中进行操作。这个新环境更接近现实中的导航问题。Robo-VLN的挑战轨迹长度更长动作空间是连续的存在障碍物等现实问题3.基准和问题。

2024-10-08 20:03:41 856

原创 Bridging the Gap Between Learning in Discrete and ContinuousEnvironments for Vision-and-Language Na

在视觉与语言导航（VLN）的现有研究中，大多数工作都侧重于离散或连续环境，训练的代理无法在这两者之间进行泛化。虽然学习在连续空间中导航更接近现实世界，但训练这种代理比在离散空间中训练代理要困难得多。然而，由于领域差异，最近在离散VLN中的进展难以直接应用于连续VLN。两种设置的根本区别在于，离散导航假设已知环境的连接图，这样代理可以通过绑定到可导航方向的图像，将低级控制的导航问题有效地转化为通过高级操作在节点间跳跃的问题。

2024-08-20 16:59:57 599

原创 Safe-VLN: Collision Avoidance for Vision-and-Language Navigation ofAutonomous Robots Operating in C

VLN-CE的主流框架主要有三个模块：一个路径点预测器、一个导航规划器和一个低级控制器。具体来说，通过学习Matterport3D中已知的导航图，路径点预测器在连续环境中通过预测视觉观察中附近的候选位置来生成高层次的导航路径点。基于预训练的路径点预测器，导航规划器生成下一个子目标路径点，这些路径点进一步由低级控制器实现。碰撞在VLN-CE中经常发生，主要面临以下挑战。首先，。其次，

2024-08-19 16:12:49 884

原创 NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration

Nomad扩展了Vint，同时支持目标条件导航和。

2024-06-19 18:33:04 439

原创 ViNT: A Foundation Model for Visual Navigation

预训练的方式在很多领域取得了成功，但是由于环境、平台和应用程序的绝对多样性，因此很难应用在机器人领域。那么想要做移动机器人的基础模型需要什么？本文定义了一个机器人领域的基础模型，可以实现（1）在新的、有用的环境里进行零样本学习；（2）适应所选择的下游任务。在视觉导航中，机器人必须完全使用以自我为中心的视觉观察来导航环境。一个通用的预先训练的机器人导航模型应该能够实现广泛的导航应用，容易地对下游任务进行微调，并推广到广泛的环境和机器人平台。

2024-06-18 21:48:51 921

原创论文阅读：BEVBert: Multimodal Map Pre-training for Language-guided Navigation

目前大多数现有的预训练方法都采用离散的全景图来学习视觉-文本关联。这要求模型隐式关联全景图中不完整、重复的观察结果，这可能会损害智能体的空间理解。提出了一种新的基于地图的具备空间感知能力的预训练范式，可用于 VLN。具体来说，我们构建一个局部度量地图来显式聚合不完整的观察结果并删除重复项，同时在全局拓扑地图中对导航依赖性进行建模。这种混合设计可以平衡 VLN 对短期推理和长期规划的需求。然后，基于混合地图，我们设计了一个预训练框架来学习多模态地图表示。

2024-04-19 10:28:17 858

原创 LANA: A Language-Capable Navigator for Instruction Following and Generation

最近，视觉语言导航（VLN）——要求机器人代理遵循导航指令——已经取得了巨大的进步。然而，现有文献最强调。在本文中，我们设计了更具体地说，分别用于路由和语言编码的两个编码器由两个分别用于动作预测和指令生成的解码器构建和共享，以便利用跨任务知识并捕获特定于任务的特征。在整个预训练和微调过程中，指令跟踪和生成都被设置为优化目标。我们凭经验验证，与最新的先进任务特定解决方案相比，LANA 在指令跟踪和路由描述方面都获得了更好的性能，并且复杂度接近一半。

2024-03-03 21:13:27 808

原创 Learning from Unlabeled 3D Environments forVision-and-Language Navigation

在视觉和语言导航 (VLN) 中，实体代理需要按照自然语言指令在真实的 3D 环境中进行导航。现有 VLN 方法的一个主要瓶颈是缺乏足够的训练数据，导致对未见过的环境的泛化效果不理想。虽然 VLN 数据通常是手动收集的，但这种方法成本高昂并且阻碍了可扩展性。在这项工作中，我们通过建议从 HM3D 的 900 个未标记的 3D 建筑物自动创建大规模 VLN 数据集来解决数据稀缺问题[45]。我们为每个建筑物生成一个导航图，并从 2D 传输对象预测，通过跨视图一致性生成伪 3D 对象标签。

2024-03-03 21:13:14 1273

原创 KEFA: A Knowledge Enhanced and Fine-grained Aligned Speakerfor Navigation Instruction Generation

视觉和语言导航（VLN）[4]是一项智能体遵循自然语言指令采取行动并在虚拟环境中移动到目的地的任务。虽然在开发指令跟随智能体方面取得了巨大进展[45,60,9]，但逆向任务——指令生成，最近受到了越来越多的关注。指令生成模型，或者说说话者，通常扮演着用自然语言描述环境中的轨迹的角色。在实际场景中，说话者模型可用于描述机器人在人类机器人协作任务中探索的路径[15, 54]，或通过辅助指令引导盲人跟随者[25]。尽管以前的指令生成方法[16,1,59,55]带来了有希望的进步，但。

2024-03-03 21:12:56 756

原创 Less is More: Generating Grounded Navigation Instructions from Landmarks

寻路——导航到目的地——是一项日常任务。我们研究自动生成有效引导人们的导航指令。使用基本方向和街道名称的基于模板的语言生成器通常用于户外测绘应用，一些更灵活的生成方法依赖于包含地图、道路和地标信息的数据库[16,50,51]。相比之下，室内寻路指令需要以自我为中心的运动指导和对视觉环境（例如值得注意的物体）的参考。用于生成室内寻路指令的系统假设可以访问预先存在的平面图和地标数据库[41]，但最近的工作试图直接从视觉输入生成新颖的指令[21,38,59]。

2024-03-03 21:12:48 602

原创 A New Path: Scaling Vision-and-Language Navigation withSynthetic Instructions and Imitation Learnin

开发遵循人类指令的智能代理是人工智能领域的一项长期而艰巨的挑战[66]。最近解决这个问题的一个焦点是视觉和语言导航 (VLN) [3, 9]。导航是研究指令遵循的理想测试平台，因为该任务可以按比例逼真地模拟，并且评估也很简单。然而，捕捉真实人类教师的语言多样性和特质的数据集很小，而且收集起来很昂贵。其他视觉和语言任务的人工注释训练数据短缺问题已通过在多达数十亿个图像文本对上进行预训练 Transformer 得到部分解决。

2024-03-03 21:12:39 793

原创 FOAM: A Follower-aware Speaker Model For Vision-and-LanguageNavigation

说话者-跟随者模型已被证明在视觉和语言导航中有效，其中说话者模型用于合成新指令以增强跟随者导航模型的训练数据。然而，在之前的许多方法中，生成的指令并没有被直接训练来优化跟随器的性能。在本文中，我们提出了 FOAM，一种 FOllower-Aware 说话者模型，它根据跟随者的反馈不断更新，从而生成的指令可以更适合跟随者当前的学习状态。具体来说，我们使用双层优化框架来优化说话者，并通过评估标记数据上的跟随者来获得其训练信号。

2024-03-01 16:45:24 630

原创 Airbert: In-domain Pretraining for Vision-and-Language Navigation

为了解决VLN数据集稀缺的问题，本文创建了一个数据集BNB。我们首先从在线租赁市场的数十万个列表中收集图像标题 (IC) 对。接下来，我们使用 IC 对提出自动策略来生成数百万个 VLN 路径-指令 (PI) 对。我们进一步提出了一种shuffling loss，可以改善路径-指令对内时间顺序的学习。我们使用 BnB 来预训练我们的 Airbert模型，该模型可以适应判别性和生成性设置，并表明它在房间到房间 (R2R) 导航和远程引用表达 (REVERIE) 基准测试方面优于最先进的技术。

2023-12-24 22:22:34 1005

原创 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

我们提出了Stable video diffusion——一种用于高分辨率、最先进的文本-视频和图像-视频生成的潜在视频扩散模型。最近，通过插入时间层并在小型高质量视频数据集上对其进行微调，用于 2D 图像合成训练的潜在扩散模型已转变为生成视频模型。然而，文献中的训练方法差异很大，该领域尚未就视频数据的统一策略达成一致。在本文中，我们确定并评估了视频 LDM 成功训练的三个不同阶段：文本到图像预训练、视频预训练和高质量视频微调。此外，我们证明了精心策划的预训练数据集对于生成高质量视频的必要性，并。

2023-12-12 22:36:24 1937

原创 3-D Scene Graph: A Sparse and SemanticRepresentation of Physical Environmentsfor Intelligent Agent

理解周围环境的能力是智能体成功完成给定任务的关键因素之一[1]。如果没有这种能力，智能体只能执行简单且有限的任务。为了实现多功能性能，智能体不仅必须感知环境的物理属性，还必须感知环境中固有的语义信息。在观察环境和存储收集到的信息的过程中，智能体构建环境模型，该模型紧凑地表示周围的空间[2]。此类模型包括由 SLAM [3] 生成的密集地图以及由计算机视觉和自然语言处理 (NLP) 算法生成的场景描述 [4]。环境模型让智能体计划如何执行给定的任务，并为推理和推理提供依据。因此，智能体的有效环境模型非常重要。

2023-12-11 17:33:29 1055

原创 Self-correcting LLM-controlled Diffusion Models

随着扩散模型的出现，文本到图像的生成取得了重大进展。尽管能够生成逼真的图像，但当前的文本到图像扩散模型仍然常常难以准确解释和遵循复杂的输入文本提示。与旨在尽最大努力生成图像的现有模型相比，我们引入了自校正 LLM 控制扩散（SLD）。SLD 是一个框架，它根据输入提示生成图像，评估其与提示的对齐情况，并对生成图像中的不准确之处进行自我纠正。在 LLM 控制器的控制下，SLD 将文本到图像的生成转变为迭代闭环过程，确保生成图像的正确性。

2023-12-11 17:12:30 1174

原创 Scaling Data Generation in Vision-and-Language Navigation

最近对语言引导视觉导航的研究表明，对可穿越环境的多样性和训练通用智能体的监督数量有很大的需求。为了解决现有视觉和语言导航数据集中常见的数据稀缺问题，我们提出了一种生成大规模学习数据的有效范例，该范例应用来自 HM3D 和 Gibson 数据集的 1200 多个逼真环境，并使用网络上完全可访问的资源合成 490 万个指令轨迹对。重要的是，我们研究了该范例中每个组件对智能体性能的影响，并研究如何充分应用增强数据来预训练和微调智能体。

2023-12-11 10:24:53 917

原创论文阅读：《Learning Universal Policies via Text-Guided Video Generation》

人工智能的目标是构建一个可以解决各种任务的代理。文本引导图像合成的最新进展已经产生了具有生成复杂新颖图像的令人印象深刻的能力的模型，展示了跨领域的组合泛化。受这一成功的激励，我们研究了此类工具是否可用于构建更通用的代理。具体来说，我们将顺序决策问题转化为以文本为条件的视频生成问题，其中，给定期望目标的文本编码规范，规划器合成一组描述其未来计划行动的未来帧，然后从生成的视频中提取动作。通过利用文本作为潜在的目标规范，我们能够自然地、组合地推广到新的目标。

2023-11-27 20:22:48 1015

原创 DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latentdiffusion model

随着基于强大且统一的鸟瞰图（BEV）表示的自动驾驶的日益普及，迫切需要具有准确标注的高质量、大规模多视图视频数据。然而，由于昂贵的采集和标注成本，如此大规模的多视图数据很难获得。为了缓解这个问题，我们提出了一个时空一致的扩散框架 DrivingDiffusion，以生成由 3D 布局控制的逼真的多视图视频。在给定 3D 布局的情况下合成多视图视频时存在三个挑战：如何保持 1) 跨视图一致性和 2) 跨帧一致性？3）如何保证生成实例的质量？我们的 DrivingDiffusion 通过。

2023-11-27 20:21:25 1231

原创论文阅读：《GAIA-1:A Generative World Model for Autonomous Driving》

自动驾驶有望对交通带来革命性的改进，但构建能够安全地应对现实世界场景的非结构化复杂性的系统仍然具有挑战性。一个关键问题在于有效预测随着世界的发展，车辆的行为可能出现的各种潜在结果。（也就是说构建一个可以有效的应对汽车行驶过程中可能出现的各种突发状态的一个系统是十分困难的）为了应对这一挑战，我们引入了 GAIA-1（“自主生成人工智能”），这是一种生成世界模型，利用视频、文本和动作输入来生成真实的驾驶场景，同时提供对自我车辆行为和场景特征的细粒度控制。我们的方法通过。

2023-11-24 22:27:22 1586 1

原创论文阅读：ROBOGEN: TOWARDS UNLEASHING INFINITE DATAFOR AUTOMATED ROBOT LEARNING VIA GENERATIVESIMULATION

我们推出 RoboGen，这是一种生成机器人代理，可以通过生成模拟自动大规模学习各种机器人技能。RoboGen 利用基础模型和生成模型的最新进展。我们不直接使用或调整这些模型来产生策略或低级动作，而是提倡一种生成方案，该方案使用这些模型自动生成多样化的任务、场景和训练监督，从而在最少的人类监督下扩大机器人技能的学习。我们的方法为机器人代理提供了一个自我引导的提议（propose）-生成（generate）-学习（learning）循环.

2023-11-19 21:32:08 455

原创论文阅读：NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

ChatGPT 和 GPT-4 等大型语言模型 (LLM) 经过前所未有的数据规模训练，通过模型扩展展现出显着的推理能力。这种趋势凸显了用无限语言数据训练LLM的潜力，推动了通用具身智能体的开发。在这项工作中，我们引入了 NavGPT，一种纯粹基于 LLM 的指令跟踪导航智能体，通过对视觉和语言导航（VLN）执行零样本顺序动作预测来揭示 GPT 模型在复杂具体场景中的推理能力。在每一步中，NavGPT 都会将视觉观察、导航历史和未来可探索方向的文本描述作为输入来推理智能体的当前状态，并做出接近目标的决定。

2023-11-17 17:37:55 577 1

原创论文阅读：Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions

视觉语言导航（VLN）是一项具体任务，需要广泛的技能，包括理解、感知和规划。对于这样一个多方面的挑战，以前的VLN方法完全依靠一个模型自己的思考在一轮内做出预测。然而，现有的模型，即使是最先进的大型语言模型 GPT4，仍然难以通过单轮自我思考来处理多个任务。在这项工作中，我们从专家咨询会议中汲取灵感，引入了一种新颖的零样本VLN框架。在这个框架内，具有独特能力的大模型被充当领域专家。我们提出的导航智能体，即 DiscussNav，可以在每一步行动之前与这些专家积极讨论以收集必要的信息。

2023-11-13 19:45:10 260

原创论文阅读《ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation》

对于在现实世界中运行并与对象交互以完成任务的智能体来说，准确定位和导航到特定对象的能力是一项至关重要的能力。此类对象导航任务通常需要在带有标记对象的视觉环境中进行大规模训练，这对于未知环境中的新对象泛化能力较差。在这项工作中，我们提出了一种新颖的零样本对象导航方法，即带有软常识约束（ESC）的探索，该方法将预训练模型中的常识知识转移到开放世界对象导航，而无需任何导航经验或任何其他视觉训练环境。

2023-11-13 16:02:42 198

原创论文阅读：《Room-Object Entity Prompting and Reasoning for Embodied Referring Expression》

1、Embodied Referring Expression (REVERIE)任务是：给定一个高级指令，智能体通过在unseen的环境中导航来定位。2、以往的视觉语言导航方法利用提供的细粒度指令作为逐步导航指导，严格遵循指令，而REVERIE旨在根据high-level命令实现高效的目标导向探索。在这项工作中，我们提出了一种跨模态知识推理（CKR+）框架，该框架将先验知识作为决策指导来全面学习导航方案：（1）设计了一种机制，明确的分离指令和视觉观测中的与房间和物体相关的线索；（2）我们提出了一种。

2023-11-02 17:13:05 272 1

空空如也

空空如也