斯坦福&谷歌丨Physically Grounded Vision-Language Models for Robotic Manipulation论文详解

Physically Grounded Vision-Language Models for Robotic Manipulation

物理基础的视觉-语言模型用于机器人操纵

更多内容关注公众号:AIRoobt

摘要最近在视觉-语言模型(VLMs)方面的进展已经提高了在视觉问答和图像描述等任务上的性能。因此,这些模型现在很适合用于推理物理世界,特别是在机器人操纵等领域。然而,当前的VLMs在理解常见物体的物理概念(例如材料、脆弱性)方面有限,这限制了它们在涉及与这些物体互动和物理推理的机器人操纵任务中的实用性。为了解决这个限制,我们提出了PHYSOBJECTS,这是一个以物体为中心的数据集,包含39.6K众包和417K自动化的常见家庭物体的物理概念注释。我们展示了在PHYSOBJECTS上微调VLM可以提高其对物理物体概念的理解,包括对保留概念的泛化,通过从视觉外观捕捉这些概念的人类先验知识。我们将这个物理基础的VLM集成到一个交互式框架中,该框架基于大型语言模型的机器人规划器,并展示了在需要推理物理物体概念的任务上,与不利用物理基础VLMs的基线相比,规划性能有所提高。我们还在真实机器人上展示了我们物理基础VLM的好处,它提高了任务成功率。我们在https://iliad.stanford.edu/pg-vlm/上发布了我们的数据集,并提供了我们结果的更多细节和可视化。

摘要解析:最近,视觉-语言模型VLMs在回答问题和描述图片方面做得越来越好了。这使得它们很适合用来帮助机器人更好地理解我们周围的物理世界,尤其是在机器人需要操作物体的时候。但是,这些模型在理解物体的物理特性(比如物体是由什么材料制成的,或者它们是否容易破碎)方面还不够好,这限制了它们在实际机器人操作中的应用。

为了解决这个问题,我们创造了一个叫做PHYSOBJECTS的新数据集。这个数据集包含了很多家庭常见物体的图片,以及关于这些物体的物理特性的信息,比如它们的材料和脆弱性。我们收集了来自很多人(众包)和自动程序的注释,总共有39.6万个众包注释和417万个自动化注释。

我们展示了通过在PHYSOBJECTS数据集上对VLM进行微调,可以提高模型对物体物理特性的理解能力。这意味着模型不仅能够学习到数据集中的信息,还能将这些知识应用到它之前没有见过的新概念上。我们把这个经过物理概念训练的VLM集成到了一个交互式系统中,这个系统可以帮助大型语言模型(就像一个会说话的机器人大脑)来规划任务。我们发现,使用这个物理基础的VLM,机器人在执行需要物理推理的任务时,表现得更好了。

最后,我们还在真实的机器人上测试了这个系统,结果表明,使用这个物理基础的VLM可以帮助机器人更成功地完成任务。

I. 引言

大型语言模型(LLMs)已经显示出将语言指令转换为具身代理的任务计划的巨大潜力[1],[2]。应用LLMs的基本挑战在于通过视觉等感官输入将它们锚定到物理世界。先前的工作通过使用视觉-语言模型(VLMs)来指示场景中物体的存在,或提供场景中发生的反馈,已经取得了将LLMs锚定的进展[3]–[7]。然而,视觉可以进一步通过提取更详细的场景信息来改善锚定。对于机器人操纵来说,理解物体的物理概念,如它们的材料组成或它们的脆弱性,将帮助规划器识别与之互动的相关物体,并基于物理或安全约束提供可供性。例如,如果人类想要机器人拿一杯水,机器人应该能够判断杯子里已经有水还是其他东西。此外,如果杯子更脆弱,机器人应该更加小心地处理它。

我们如何使用视觉来推理物理物体概念?先前的工作使用更传统的视觉技术研究了这个问题,例如在物体互动数据上的自监督学习。然而,当扩展到定义良好设置中的一小组物体之外时,收集物体互动数据可能具有挑战性。虽然有时没有互动数据可能无法精确估计物理属性,但人类可以使用他们的视觉感知在没有物体互动的情况下对物理概念进行高层次推理。例如,人类可以推理出一个玻璃杯比塑料瓶更脆弱,并且用碗装水比浅盘更容易。这种推理通常基于对视觉上相似物体的先验语义知识,并且可以从静态视觉外观单独完成。

同样,使用大规模数据预训练的VLMs已经展示了广泛的视觉推理能力和泛化[8]–[13],因此有潜力以类似人类的方式对物体进行物理推理。因此,我们提出利用VLMs作为一种可扩展的方式,提供人类用于与世界互动的高级物理推理,这可以惠及机器人规划器,而无需互动数据。VLMs的一般和灵活的特性也消除了使用单独的任务特定视觉模型进行物理推理的需要。VLMs已经被普遍集成到机器人规划系统中[3]–[7],[13],使它们成为赋予机器人规划物理推理的自然解决方案。

然而,虽然现代VLMs在视觉问答(VQA)等任务上有了显著提高,并且已经有证据表明它们具有物体中心物理推理的潜力[14],但我们在这项工作中展示了它们开箱即用的性能在这方面仍有待提高。尽管VLMs已经在广泛的互联网规模数据上进行了训练,但这些数据并不包含许多物体中心物理推理的例子。这激发了在训练VLMs时结合更多种类和数量的此类数据。不幸的是,以前的物理推理视觉数据集不适合理解常见现实世界物体,这对于机器人技术来说是理想的。

图 1:(a) 我们收集常见家庭物体的物理概念注释,用于微调VLMs。(b) 我们在基于LLM的机器人规划框架中使用微调后的VLM,其中LLM在生成计划之前查询VLM关于场景中物体的物理概念。(c) 我们在真实的Franka Emika Panda机器人上评估LLM生成的计划。

为了解决这个问题,我们提出了PHYSOBJECTS,一个以物体为中心的数据集,包含常见家庭物体的人类物理概念注释。我们的注释包括分类标签(例如,物体X是由塑料制成的)和偏好对(例如,物体X比物体Y重)。我们的主要贡献是PHYSOBJECTS,一个包含39.6K众包和417K自动化物理概念注释的真实家庭物体数据集,以及展示了使用它来微调VLM可以显著提高物理推理。我们展示了我们的物理基础VLM在我们的数据集上实现了改进的测试准确性,包括对保留的物理概念。此外,为了说明改进的物理推理对机器人技术的实用性,我们将我们的物理基础VLM与基于LLM的机器人规划器结合起来,其中LLM查询VLM关于其场景中物体的物理概念。我们的系统在需要物理推理的任务上实现了改进的规划性能,与不使用物理基础VLMs的基线相比。最后,我们展示了我们的物理基础VLM在真实机器人规划中的好处,其使用提高了任务成功率。

II. 相关工作

我们回顾了关于物理推理、物体属性数据集、VLMs、使用LLMs进行机器人规划,以及在交互系统中同时使用LLMs和VLMs的先前工作。

物理推理。先前的工作通过从互动数据中学习,研究了从视觉估计物理物体属性[15]–[17]。其他工作专注于学习捕获物理概念的表示,而不是直接估计[18],[19]。与这些工作不同,我们使用预训练的VLMs和人类注释作为从互动中学习的更可扩展的替代方案。Mind's Eye使用LLMs进行物理推理[20],但依赖于使用模拟器进行锚定,这在现实世界的扩展上会很困难。VEC使用LLMs和VLMs进行物理推理[21],但从文本描述进行推理,而我们则从真实图像进行推理。OpenScene使用CLIP[22]根据材料和脆弱性等属性识别场景中的物体,但这些结果本质上只是定性的[14]。

在我们的工作中,我们提出了PHYSOBJECTS,以更好地量化和改进以物体为中心的物理推理,并利用这种推理进行机器人操纵。

物体属性数据集。以前有包含PHYSOBJECTS中概念的视觉物体属性数据集,例如材料和透明度[23]–[26]。然而,它们更关注视觉属性,如颜色,而我们关注物理概念。Physics 101提供了一个物体互动视频和属性测量的数据集[16],但PHYSOBJECTS包含了更多种类的物体,这些物体对家庭机器人技术更相关。

视觉-语言模型。VLMs在VQA(Visual Question Answering,视觉问答)等多模态任务上取得了巨大进步,通过利用互联网规模的图像和文本数据[8]–[10],[12]。在我们的实验中,我们使用InstructBLIP[11]作为我们的基础VLM进行微调和比较,因为它是我们实验时最先进的开源VLM。PaLM-E在一般视觉-语言任务和机器人规划上表现出色[13],但还没有针对物理推理的专注评估。SuccessVQA通过将其视为VQA任务,对人类数据进行微调以检测成功,并实现了比专门为成功检测设计的模型更好的泛化[27]。我们同样通过对人类数据进行物理推理的VQA问题微调VLM,以从VLM的泛化能力和多功能性中受益。

LLMs用于机器人规划。许多最近的工作已经使用LLMs作为机器人规划器。SayCan使用视觉价值函数提供可供性以进行锚定[2],但没有从VLMs中受益。后续工作使用VLMs通过物体检测或提供关于发生情况的反馈(例如,成功检测)来锚定LLM规划器[3]–[7]。我们的工作专注于通过物理推理扩展VLMs的锚定使用,让基于LLM的规划器执行需要更深层次物理理解世界的任务。

注释:SayCan这个项目用视觉信息来告诉机器人哪些动作是可行的,帮助机器人确定下一步该做什么。但是,SayCan并没有利用视觉-语言模型(VLMs)来增强这个功能。接下来的一些研究开始尝试用VLMs来帮助LLMs更好地理解机器人周围的环境。这些VLMs可以通过识别物体或者告诉机器人某个动作是否成功(比如,机器人是否成功抓起了一个物体)来帮助LLMs做出更好的决策。我们想要让VLMs不仅能识别物体,还能理解物体的物理特性,比如物体的重量、硬度或者是否容易破碎。这样,基于LLM的规划器就能更好地理解它需要操作的世界,从而完成更复杂、需要更多物理知识的任务。简单来说,我们想让机器人不仅能“看”到物体,还能“理解”物体,这样它们就能更好地完成工作。

LLM/VLM交互。我们的规划评估属于苏格拉底模型[28]的框架,其中大型模型通过文本相互交互以执行VQA[29],[30]和图像描述[31]等任务。与我们的评估最相似的是Matcha,其中LLM接收任务指令,从其环境中获得以物体为中心的反馈,并使用这些反馈进行任务规划[32]。然而,这项工作没有专注于视觉反馈,因为它的评估是在模拟环境中进行的,那里的物理概念在视觉上是不可见的。相比之下,我们专注于现实世界场景中的视觉物理推理。

III. PHYSOBJECTS数据集

为了基准测试和改进VLMs进行以物体为中心的物理推理,我们提出了PHYSOBJECTS,这是一个包含39.6K众包和417K自动化物理概念注释的真实家庭物体图像数据集。

图像来源。我们使用公开发布的EgoObjects数据集的挑战版本[33]作为我们的图像来源。据我们所知,这是在构建PHYSOBJECTS时公开发布的最大的以物体为中心的真实图像数据集。该数据集由现实家庭环境中的自我中心视频帧组成,这使得它特别适合家庭机器人技术。它包括117,424张图像,225,466个带有相应类别标签的物体边界框,来自277个物体类别,以及4,203个物体实例ID。PHYSOBJECTS包括了这个图像数据的大部分物理概念注释。1 我们根据物体实例ID构建了随机的训练、验证和测试集。我们按物体类别分割数据集,以确保每个物体类别在每个集中都有代表,如果可能的话。我们的训练、验证和测试集分别包含73.0%、14.8%和12.2%的物体。(原文注释:我们在网站上公开发布了我们的数据集。由于EgoObjects的许可协议不允许将其纳入另一个数据集,我们单独发布了我们的注释,与图像数据分开。

表 I:我们的物理概念及其简要描述

物理概念。我们收集了八个主要物理概念和两个用于保留评估的额外概念的注释。我们根据先前的工作和我们认为对机器人操纵有用的概念选择概念,但没有考虑所有这样的概念。例如,我们没有包括摩擦,因为如果没有互动,这很难估计,我们也没有包括体积,因为这需要几何推理,这不是我们关注的焦点。

在我们的主要概念中,有三个是连续值,适用于所有物体:质量、脆弱性和可塑性。另外两个也适用于所有物体,但是是分类的:材料和透明度。透明度可以被认为是连续的,但我们使用透明、半透明和不透明的离散值。另外三个是分类的,仅适用于容器物体:内容物、可容纳液体和密封性。我们定义了哪些物体类别是容器,结果有956个容器物体实例。

我们的两个保留概念是密度,它是连续的,适用于所有物体,以及液体容量,它是连续的,仅适用于容器。我们只为这些保留概念收集测试数据。我们在表I中列出了所有概念及其简要描述。

对于分类概念,我们为每个概念定义了一组标签。注释包括为给定物体和概念指定的标签。对于材料和内容物概念,在众包时,如果没有任何预定义的标签适用,我们允许开放式标签。

对于连续概念,注释是偏好对,其中给定两个物体,注释表明一个物体具有更高的概念水平,物体具有大致相等的水平,或者关系不明确。我们使用偏好,因为通常人类更直观地提供比较而不是连续值[34],[35]。这在注释具有物理概念的静态图像时尤其正确,因为在这种情况下很难指定精确的基于地面的值。例如,很难将海绵的可塑性指定为10中的一个值。比较也已被用于先前工作中评估LLMs和VLMs的物理推理[21]。因此,PHYSOBJECTS对连续概念的锚定研究本质上只是关系性的。

注释:在处理一些连续变化的特性(比如物体的硬度、重量或者可塑性)时,我们不是给每个物体一个具体的数值来表示这个特性,而是通过比较来描述这些特性。比如,我们可能会说一个物体比另一个物体更硬,或者两个物体硬度差不多,或者我们无法确定哪个更硬。这种方法更符合人类的直觉,因为我们通常通过比较来理解事物,而不是给出一个精确的数值。

在给物体的图片添加注释时,这种方法尤其有用,因为很多时候我们很难给出一个精确的数值来描述物体的物理特性。比如,要给海绵的可塑性打分,从1到10,这就很难做到准确。所以,我们选择了一种更简单的方法,就是比较物体之间的特性。

在之前的一些研究中,这种方法也被用来评估大型语言模型(LLMs)和视觉-语言模型(VLMs)在物理推理方面的能力。所以,PHYSOBJECTS这个数据集在处理连续概念时,主要是关注物体特性之间的关系,而不是具体的数值。

自动注释。在众包之前,我们首先尝试尽可能自动化注释,以便众包工作者只注释那些不容易自动化的例子。对于分类概念,我们将概念值分配给EgoObjects中定义的一些物体类别,使得该类别中的所有物体都被标记为该值。对于连续概念,我们为每个概念定义了高和低层,使得来自高层类别的所有物体都比来自低层类别的所有物体具有更高的概念水平。然后,我们为两个层之间的所有物体对自动化偏好注释。

众包注释。我们通过众包获得额外的注释,使用Prolific平台上的573名众包工作者。众包工作者使用基于网络的用户界面(图2中展示了脆弱性的示例),在整体图像的上下文中呈现物体边界框,并使用屏幕上的按钮或键盘提供注释。对于分类概念,我们收集了大多数未自动注释的物体的注释。对于连续概念,因为为数据集中的每个物体对进行注释是不切实际的,我们随机抽样对进行注释。我们执行20%的抽样对是同一类别的物体之间,以优先考虑理解同一类别物体之间的差异。我们为每个例子收集了三名众包工作者的注释。为了促进高质量的数据,我们在提供的示例中包括了10%的注意力检查,这些示例有已知的标签,并且只保留在这些上达到80%准确率的注释者的数据。

数据集统计。我们为13.2K个示例众包了39.6K个注释,并为额外的417K个示例自动化了注释。对于众包注释,93.7%的示例至少有2/3的注释者标签一致,58.1%的示例有一致的一致性。

图 2:脆弱性注释的用户界面。在这里,标签是正确的,即水杯比房屋/汽车钥匙更脆弱。

IV. 物理基础的视觉-语言模型

微调VLMs。我们使用的是InstructBLIP[11]的FlanT5-XXL[36]版本。InstructBLIP的输入是一个单一的RGB图像和文本提示,输出预测的文本。在我们的设置中,我们选择模型输入为一个物体的单个边界框,以及对应于每个概念的问题文本提示。

从偏好中学习。对于分类概念的学习相当于对注释标签的最大似然。然而,对于连续概念的偏好训练VLM并不那么直接,因为偏好学习需要一个连续的分数。为了使用VLMs进行这个操作,这些模型自然具有离散的文本输出,我们用可以回答是或否的问题提示VLM,以处理连续概念。然后,我们提取以下分数函数:

其中o是一个物体边界框图像,c是一个概念,p(·|o, c)是在给定物体图像和概念的条件下,VLM对文本的似然。我们使用这个作为我们的分数函数,因为它可以取任何非负值,并且log s(o, c)具有直观的解释,即在是和否之间的对数似然差异。

注释:这里描述了如何在视觉-语言模型(VLMs)中处理分类概念(categorical concepts)和连续概念(continuous concepts)的学习。

1. **分类概念的学习**:对于分类概念,学习的目标是最大化注释标签的似然性。这意味着模型试图找到一种方式,使得模型输出的标签与实际的标签(例如,物体的材料类型)尽可能一致。这通常通过计算模型预测的标签与真实标签之间的匹配程度来实现。

2. **连续概念的学习**:对于连续概念,学习过程就不那么直接了。连续概念涉及到对物体的某种属性(如质量、脆弱性)进行评分,这需要一个连续的分数来表示。然而,VLMs通常只能输出离散的文本信息,这使得直接处理连续概念变得困难。

3. **解决连续概念的方法**:为了解决这个问题,研究者们设计了一种方法,通过向VLM提出可以用“是”或“否”来回答的问题,来间接地为连续概念生成一个连续的分数。例如,他们可能会问模型:“这个物体比另一个物体更重吗?”然后,模型会输出一个概率值,表示这个陈述为真的概率。

4. **分数函数**:他们定义了一个分数函数s(o, c),它结合了模型对“是”和“否”两种回答的概率。这里的o代表物体的边界框图像,c代表概念。p(·|o, c)是在给定物体图像和概念的条件下,模型对文本的似然性。这个分数函数可以取任何非负值,而且log s(o, c)(即s(o, c)的对数)直观地表示了“是”和“否”两种回答的对数似然差异。

再更加详细的说明下:它需要判断两个物体(比如两个苹果)哪个更重。但是,机器人不能直接称重,它只能通过看(视觉信息)来判断。我们教机器人用一种特殊的方法来做出判断:它会问自己一个问题,比如“这个苹果比那个苹果重吗?”然后,机器人会根据它看到的信息来给出一个答案,这个答案是一个概率值,表示它认为这个判断是真的可能性有多大。

现在,这个分数函数s(o, c)就是我们用来计算这个概率值的公式。这里的“o”代表我们观察的物体(比如一个苹果),“c”代表我们要判断的概念(比如重量)。这个公式会告诉我们,根据机器人看到的信息,它认为“这个苹果比那个苹果重”这个说法有多可信。

这个分数函数的计算结果是一个数值,这个数值越大,表示机器人越相信这个苹果更重。这个数值可以是任何非负数,比如0到1之间。如果我们对这个数值取对数,就可以得到一个更容易比较的值,这个值越大,表示机器人越有信心这个苹果更重。

通过这种方式,研究者们能够利用VLMs来处理连续概念,即使VLMs本身只能输出离散的文本输出。这种分数函数为连续概念的学习提供了一种可行的方法,并且使得模型的输出更容易解释。

然后我们使用Bradley-Terry模型[37]来估计人类指示物体o1在概念c上比物体o2具有更高值的概率为:原文注释:我们尝试了其他评分函数的选择,并发现虽然它们在PHYSOBJECTS上的测试准确性方面表现相似,但我们发现这个评分函数为不同响应产生了最易于解释的可能性范围,我们假设这对下游规划是有益的。

注释:假设我们有两个苹果,苹果o1和苹果o2,我们想要比较它们的重量。我们用c来代表“重量”这个概念。

现在,我们想要估计一个人(比如你)会说哪个苹果更重。为了做到这一点,我们用到了一个叫做Bradley-Terry模型的数学工具。这个模型帮助我们计算出,根据我们对苹果的观察(比如它们的大小和形状),苹果o1比苹果o2更重的可能性。

公式P(o1 > o2 | c)就是这样一个计算工具。这个公式的意思是:“在考虑重量这个概念的情况下,苹果o1比苹果o2更重的概率是多少?”这个概率是通过比较两个苹果的“分数”来计算的。这里的分数s(o1, c)和s(o2, c)是我们之前提到的,它们代表了机器人(或者一个模型)对苹果重量的判断。

我们假设有一个偏好注释的数据集D (o1, o2, c, y),其中y ∈ {[1, 0], [0, 1], [0.5, 0.5]} 对应于o1更受欢迎,o2更受欢迎,或者它们被指示为相等。然后我们通过最小化以下目标来微调VLM:

在实践中,这是二元交叉熵目标,其中每个物体图像o的logits是对数似然的差异log s(o, c) = log p(yes | o, c) − log p(no | o, c)。

注释:假设我们有一个数据集D,这个数据集包含了人们对两样东西(比如两个苹果)的偏好。我们用o1和o2来代表这两样东西,c代表我们关心的某个特性(比如重量),y是一个表示偏好的值。如果大家都认为o1比o2好,那么y就是[1, 0];如果大家都认为o2比o1好,那么y就是[0, 1];如果大家觉得两者一样好,那么y就是[0.5, 0.5]。

现在,我们想要训练一个视觉-语言模型(VLM),让它能够准确地预测出人们会更喜欢哪个苹果。为了做到这一点,我们需要让模型学会最小化一个目标函数L(D)。这个目标函数的意思是,我们希望模型预测的偏好(比如o1比o2更受欢迎的概率)和人们实际的偏好(y)之间的差距尽可能小。

在实际操作中,我们使用二元交叉熵(binary cross-entropy)作为我们的目标函数。这个函数会计算模型预测的“是”(比如o1比o2更重)的概率和“否”(比如o1不比o2重)的概率之间的差异。这个差异越大,说明模型的预测和实际情况的差距越大,我们就越需要调整模型。

为了计算这个差异,我们需要知道每个苹果的logits。Logits是一个数学术语,可以理解为模型预测的概率的对数。我们通过计算模型说“是”的对数概率和说“否”的对数概率之间的差值来得到logits。然后,我们用这个差值来调整模型,让它更好地预测人们的偏好。

L(D) 的计算公式是用来衡量模型预测的偏好与实际偏好之间的差异。公式的理解:

1. **公式的组成部分**:

   - E(o1,o2,c,y~ D):这是一个期望值(Expectation),它表示对数据集D中所有偏好注释的平均。

   - y1和 y2:这两个值是二元的,分别代表o1和o2的偏好。如果o1更受欢迎,y1就是1,否则是0;同理,如果o2更受欢迎,y2 就是1,否则是0。

   - log P(o1 > o2 | c) :这是模型预测o1比o2更符合某个概念c的概率的对数。

   - log(1 - P(o1 > o2 | c)):这是模型预测o1不比o2更符合概念c的概率的对数,也就是o2比o1更符合概念c的概率的对数。

2. **公式的含义**:

   - 公式中的-y1log P(o1 > o2 | c) -y2 log(1 - P(o1 > o2 | c)) 部分计算了模型预测与实际偏好之间的对数似然差异。如果模型预测正确,这个值会接近0;如果预测错误,这个值会更大。

   - 整个期望值 E  计算了所有偏好注释的平均对数似然差异。我们的目标是最小化这个期望值,这样模型的预测就会尽可能接近实际情况。

3. **训练过程**:

   - 在训练过程中,我们会调整模型的参数,使得L(D)的值尽可能小。这样,模型在预测新的偏好时就会更加准确。)

V. 实验结果

我们使用1) PHYSOBJECTS上的测试准确性,2) 真实场景中物理推理任务的规划准确性,以及3) 真实机器人上的任务成功率来评估VLMs的物理推理。

A. 数据集评估

我们提到的在PHYSOBJECTS的所有主要概念上微调的InstructBLIP称为物理基础的InstructBLIP,或PG-InstructBLIP。我们专注于众包示例的评估,因为如第III节所述,这些示例的收集意图是为了它们的标签不能仅从物体类别信息中辨别出来,因此它们通常更具挑战性。我们在表II中报告了这些示例上的测试准确性。我们的基线包括最常见的,即训练数据中最常见的标签被预测,仅文本,即LLM使用PHYSOBJECTS中的上下文示例进行预测,但使用物体类别标签而不是图像,以及InstructBLIP。我们还比较了在单一概念数据上微调的InstructBLIP版本。我们发现PG-InstructBLIP在所有概念上都优于InstructBLIP,其中在内容上改进最大,这是InstructBLIP最困难的。我们还发现PG-InstructBLIP的表现略优于单一概念模型,这表明使用单一通用模型相比使用单独的任务特定模型可能有积极的知识转移,尽管我们承认这里的改进并不是非常显著。PG-InstructBLIP通常也优于最常见的和仅文本,这表明我们的评估受益于超越数据集统计的推理,并从使用视觉中受益。

注释:我们在评估一个模型(PG-InstructBLIP)时,特别关注那些通过众包收集的例子。这些例子在收集时的目的是让它们的标签不能仅仅通过物体的类别信息就能轻易识别出来,所以这些例子通常更具挑战性。我们在表II中报告了这些例子的测试准确性。

我们的基准(baseline)包括几种不同的方法:

- 最常见的(Most Common):这种方法预测训练数据中最常见的标签。

- 仅文本(Text Only):这种方法使用一个大型语言模型(LLM),它根据PHYSOBJECTS中的上下文示例进行预测,但使用的是物体类别的标签而不是图像。

- InstructBLIP:这是一个已经存在的模型,我们用它作为比较的基准。

我们还比较了在单一概念数据上微调过的InstructBLIP版本。我们发现,PG-InstructBLIP在所有概念上都比InstructBLIP表现得更好,尤其是在内容(contents)这个概念上,这是InstructBLIP最难以处理的。我们还发现,PG-InstructBLIP比单一概念模型表现得稍微好一些,这表明使用一个通用模型可能比使用多个特定任务的模型有积极的知识转移效果,尽管我们承认这里的改进并不是非常显著。

PG-InstructBLIP通常也比最常见和仅文本的方法表现得更好,这表明我们的评估得益于超出数据集统计的推理,以及使用视觉信息。简单来说,就是我们的模型在处理复杂的例子时,不仅依赖于简单的统计规律,还能利用视觉信息来做出更准确的预测。

表 II:在众包PHYSOBJECTS上主要概念的测试准确性

泛化结果。我们还在表III中报告了我们保留概念的测试数据上评估InstructBLIP和PG-InstructBLIP的结果。我们发现PG-InstructBLIP在InstructBLIP的基础上提高了11.9%,尽管在微调期间从未见过这些评估的概念或物体实例。我们认为这表明微调VLMs可以为在微调期间看到的概念相关的其他概念提供可能的泛化好处。

表 III:在众包PHYSOBJECTS上保留概念的测试准确性

在表IV中,我们报告了在未见过的改写问题提示上的主要概念的结果。我们发现PG-InstructBLIP仍然优于InstructBLIP,与原始提示相比只有有限的退化,这表明使用大型预训练VLM对问题的多样性具有鲁棒性。

表 IV:使用改写提示的主要概念的测试准确性

数据集扩展。在图3中,我们通过在PHYSOBJECTS的不同数据分数上进行微调,说明了平均性能随数据集大小的扩展情况。性能呈正相关扩展,但模型仍然从我们数据集的仅10%中显著受益,这表明VLMs的物理推理可以通过相对较少的注释数据得到改善。

附加结果。我们在附录(在我们的网站上找到)中包括额外的结果。这些包括显示PG-InstructBLIP与InstructBLIP相比在一般VQA基准测试中的有限退化,表明使用VLMs的现有系统可以从PHYSOBJECTS中受益于物理推理,而不会牺牲其他推理能力。我们还包括使用不同问题提示的结果,使用InstructBLIP的较小版本,评估自动注释数据,转移到保留概念,以及我们微调过程的消融研究。

图 3:随着数据集大小的增加,性能的扩展

B. 真实场景规划评估

接下来,我们评估PG-InstructBLIP在未见过的现实场景图像上进行机器人规划的有效性。我们在图4中提供了一个示例场景。我们评估带有语言指令的任务,并假设有一个带有语言描述的基本机器人操作库。

图 4:我们规划评估中的示例场景

规划框架。我们规划框架中使用的LLM是GPT-4[38]。它首先被给予场景中的物体检测、一组原语和任务指令,然后询问VLM关于场景中物体的问题。对问题没有限制。之后,LLM要么指示任务不可能,要么生成由原语组成的执行计划。

结果。我们在表V中报告了使用InstructBLIP和PG-InstructBLIP的任务规划准确性。我们还与不使用VLM交互进行锚定的规划器进行了比较。我们在8个场景中的51个任务场景上进行评估,使用非作者人类评估任务计划。我们将我们的任务场景分为三类。单一概念要求使用一个物理概念识别物体,例如,找到最重的物体。多概念要求对多个物理概念进行推理,例如,要求一个可以装水的金属容器。这可能包括PHYSOBJECTS之外的概念。常识知识要求对物体的常识进行额外推理,例如,理解容器的标签。虽然我们的任务侧重于PHYSOBJECTS中的物理概念,但LLM可以询问可能也有用的其他概念,特别是对于常识知识任务。

表 V:在51个真实场景上的任务计划准确性

PG-InstructBLIP在所有任务类别上都优于InstructBLIP,特别是在多概念上。它在常识知识上做得稍微好一些,表明它可以在与InstructBLIP相似的水平上推理非PHYSOBJECTS概念。不使用VLM的性能远远低于使用VLM交互,表明我们的任务需要超出物体检测的额外锚定。我们在网站上提供更多结果细节。

C. 真实机器人评估

最后,我们使用Franka Emika Panda机器人在真实场景上评估计划。我们使用与前一节类似的规划器,但使用不同的提示和原语。我们假设有一个用于拾放任务的原语库。

我们在两个场景上进行评估,每个场景有五个任务,我们在表VI中提供。我们在表VII中报告了使用InstructBLIP和PG-InstructBLIP的成功率。我们确保原语成功执行,所以我们的成功率只反映计划质量。

表 VI:我们真实机器人评估的场景图像和任务指令

我们发现使用PG-InstructBLIP比InstructBLIP更经常导致成功的机器人执行。例如,当被问到“这个物体不是塑料的吗?”关于图5a中的陶瓷碗时,InstructBLIP错误地将可能性分配为0.89,而PG-InstructBLIP只分配了0.18。然而,当被问到“这个物体是半透明的吗?”关于图5b中的玻璃罐时,InstructBLIP和PG-InstructBLIP都错误地将可能性分配为0.95和0.91。我们注意到,虽然这些问题与PHYSOBJECTS中的物理概念有关,但它们并没有像PG-InstructBLIP的训练问题那样格式化。例如,透明度的训练提示是“这个物体是透明的、半透明的还是不透明的?”。这表明,尽管使用了大型预训练的VLM,PG-InstructBLIP有时仍可能因为分布外的问题而失败。我们在网站上提供更多结果和可视化。

表 VII:真实机器人评估的成功率

图 5:我们真实机器人评估中的物体

VI. 讨论

总结。在这项工作中,我们提出了PHYSOBJECTS,这是第一个大规模的真实家庭物体图像的物理概念注释数据集,并展示了在它上面微调VLM可以显著提高其物理推理能力,包括对保留的物理概念。我们发现使用微调后的VLM进行现实世界的机器人规划可以提高需要物理推理的任务的性能。我们相信我们的工作在扩展VLMs在机器人学中的适用性方面取得了进展。

局限性和未来工作。虽然我们展示了PHYSOBJECTS能够提升视觉语言模型的物理推理能力,但它在人类判断标准下仍存在错误。另外,尽管我们提出的连续概念处理方法改善了关系锚定,并且我们证明这对机器人规划是有用的,但模型输出尚未与真实物理量相结合,而这对于某些应用至关重要,比如判断物体是否过重而无法拿起。未来的工作可以研究如何结合包含实际物理测量数据的方法来改进锚定。

虽然我们认为本工作中涉及的物理概念对机器人学具有广泛的相关性,但未来研究可以在此基础上进一步扩展,以满足更多下游应用场景的需求。这可能包括但不限于物理推理之外的研究领域,例如几何推理(如判断一个物体能否放入容器中)或社会推理(如判断哪些物品适合从桌子上移走以便清洁)。我们相信,我们的数据集是朝着利用视觉语言模型实现机器人更复杂推理方向迈出的第一步。

  • 13
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值