UniTouch:开创性的多模态触觉模型引领零样本学习新时代

人工智能咨询培训老师叶梓 转载标明出处

由于触觉数据收集过程昂贵且传感器输出标准化程度不高,多模态学习中触觉的融合一直是一个挑战。最近,一篇由耶鲁大学和密歇根大学的研究团队提出的论文《Binding Touch to Everything: Learning Unified Multimodal Tactile Representations》为这一难题提供了新的解决方案。研究团队提出了一个名为UniTouch的统一触觉模型,该模型能够将基于视觉的触觉传感器与多种模态连接起来。UniTouch通过将其嵌入与已经与其他模态相关联的预训练图像嵌入对齐来实现这一点。论文还提出了可学习的传感器特定标记,允许模型同时从一组异构的触觉传感器中学习。

如何将触觉与图像、文本和音频等多种模态相结合,用于解决触觉图像理解、图像合成等任务

方法

作者提出了一种新颖的方法来学习不同触觉传感器的统一触觉表征,这种表征能够捕捉触觉与其他模态(例如视觉、文本和音频)之间的关系。他们首先介绍了一种对比性视觉-触觉预训练方法,该方法能够实现触觉与其他模态之间的内在联系。

如图3所示,他们通过对比学习将触觉嵌入与大规模视觉语言数据预训练出的图像嵌入对齐。在这种方法中,图像嵌入已经与语言和音频等模态对齐。作者定义了视觉图像域 和触觉图像域​。给定一批视觉和触觉图像对,其中 ,他们通过最大化触觉嵌入和预训练的视觉嵌入 之间的余弦相似度来对齐它们。使用InfoNCE损失来优化这一目标,损失函数 如下所示: 其中 τ 是一个温度超参数,C 是特征维度。同样地,也可以从图像 到触觉 使用损失 ​。总的损失函数的和。

为了学习一个适用于不同触觉传感器的通用触觉表征,作者设计了触觉编码器来弥合由传感器设计差异导致的各种基于视觉的触觉传感器之间的域差距。具体来说,他们引入了一组可学习的传感器特定标记 ​,其中,用于捕获每个传感器的特定细节,例如触觉图像中的校准和背景颜色,以便模型的其余部分可以学习不同类型触觉传感器的共同知识,如纹理和几何形状。K 表示训练中使用的传感器数量,L 是每个传感器的传感器特定标记数量,D 是标记维度。

给定触觉图像 及其对应的触觉传感器标记,将这些传感器特定标记作为前缀添加到触觉图像块标记中,然后使用触觉编码器进行编码,得到最终的嵌入 。对于对比视觉-触觉预训练,他们优化了损失函数 ​,以及从另一个方向的

在批数据采样中,作者发现批采样策略在通过对比学习训练由多个触觉传感器获取的数据时非常重要。如果从每个数据源随机采样,会导致由于不同传感器之间的域差距而产生的大量简单负样本。因此,他们设计了一种批采样策略,以确保一批数据中有 σ 百分比的训练样本来自相同的数据集。数据集 D 是由不同触觉传感器收集的 N 个数据集的并集 ,选择给定数据集 进行采样的概率定义为 ​。表示所选数据集,从中进行均匀随机采样以产生 个样本;其余的 个样本则从其他数据集中均匀采样,其中 σ 是一个超参数,范围从0到1,代表批次中的比例。这种批采样策略显著有利于训练,因为它允许模型主要关注同一传感器的困难负样本,同时仍然暴露于不同的传感器以增强传感器间的区别。

在推理阶段,为了将学习到的表征泛化到看不见的传感器类型,他们从学习到的传感器集 中检索最近的邻居传感器特定标记。具体来说,首先计算每个传感器的原型,这是一个1D向量,平均所有由该传感器收集的触觉图像的原始像素,然后在训练后存储这些原型。在推理阶段,计算输入触觉图像与所有传感器原型之间的L1距离,并检索具有最小距离的传感器。

通过将触觉嵌入与联合潜在空间对齐,建立了触觉与其他模态之间的联系。这些对齐使我们能够在没有任何进一步训练的情况下执行各种零样本和跨模态应用。

零样本触觉理解:触觉和文本的紧急对齐使得零样本触觉理解成为可能,例如材料分类和抓取稳定性预测。遵循CLIP,作者使用模板和类名对触觉图像和文本提示进行编码。通过计算它们之间的相似度分数并进行排名,实现零样本分类。

触觉-LLM(Language Model):使用现有的视觉-语言模型,该模型与对齐触觉嵌入的图像嵌入一致,可以通过切换到本触觉编码器来创建触觉-语言模型。给定触觉图像和语言输入,可以通过问答获得更全面的理解。

触觉图像合成:将触觉与文本绑定也为触觉图像合成开辟了更多潜在能力。作者利用预训练的文本到图像扩散模型,并使用触觉特征来条件化去噪过程,实现零样本触觉到图像生成[和触觉驱动的图像风格化。

X到触觉生成:作者还使用扩散模型将其他模态连接到触觉,以便实现X到触觉的生成,即通过视觉、描述或听觉来想象触觉。他们使用预训练的联合图像嵌入训练图像到触觉扩散模型,可以从文本和音频生成触觉。

实验

实验部分,作者展示了UniTouch模型在多个任务上的表现,这些任务覆盖了不同的应用领域,包括零样本触觉理解、跨模态检索、零样本图像合成、触觉语言模型(Touch-LLM)和从其他模态到触觉的生成(X-to-touch generation)。

实验基于ImageBind进行,使用AdamW优化器,基础学习率为1 × 10^−5,并且采用余弦衰减学习率调度器。模型在4个NVIDIA A40 GPU上,以每个批次大小48进行训练,共训练150个周期。温度参数τ设为0.07。触觉编码器采用Vision Transformer (ViT) 作为骨干网络,包含24个多头注意力块,每个块有16个头。特征维度C设为1024。在预训练数据集中,为每种传感器类型使用5个可学习的标记(L = 5),共训练了3种不同的传感器(K = 3)。批内采样策略中,σ设为0.75,意味着75%的数据来自同一数据集,其余来自其他数据集。

实验使用了四个由不同基于视觉的触觉传感器收集的visuotactile数据集(表1),包括真实世界数据集Touch and Go、机器人数据集The Feeling of Success、YCB-Slide数据集,以及多模态数据集ObjectFolder 2.0。模型仅使用自然配对的图像和触觉数据通过自监督进行训练。为了测试模型的泛化能力,还在包含两个未见传感器的三个领域外数据集上进行了评估。

首先,通过线性探测评估学习到的触觉特征的质量,用于下游任务:材料分类和抓取稳定性预测。触觉嵌入被冻结,然后在特定数据集的下游任务上训练线性分类器。

与两种最近的视觉-触觉自监督方法VT CMC和SSVTP进行比较,并采用它们到多数据集设置中。使用相同的架构以确保公平比较。还与监督ImageNet特征进行比较,这是常用的触觉图像表示。

在三个领域内数据集和三个领域外数据集上评估触觉材料分类任务。表2显示了线性探测的结果。UniTouch在所有数据集上的性能均优于基线,表明触觉表征从大规模数据集训练的嵌入空间中受益。

在抓取稳定性预测中,预测机器人夹持器在提升前能否成功抓取并稳定握住物体。在三个数据集上评估UniTouch:Feeling of Success、ObjectFolder 2.0和ObjectFolder 1.0。表3显示了线性探测结果,UniTouch的性能一致性地大幅度优于现有基线。

作者通过在预训练期间与文本的紧急对齐,进一步评估UniTouch进行零样本分类任务。通过计算触觉嵌入和相应文本提示之间的余弦相似度来执行材料分类和抓取预测任务。

通过提示模型“这感觉像[CLS]”,其中[CLS]是材料的名称,进行零样本材料分类。表2展示了零样本性能,与一些监督方法相当,表明触觉表征与文本良好对齐。

使用文本提示如“物体被提升在空中”和“物体掉在地上”进行零样本抓取稳定性预测。表3显示了与一些监督方法相当的性能,展示了触觉和文本对齐的能力可以扩展到可能超出视觉语言模型(如CLIP)训练范围的机器人任务。

作者探讨了如何使用触觉嵌入来进行跨模态检索,即利用触觉图像识别与之对应的视觉、文本和音频。实验设置在ObjectFolder 2.0跨感官检索基准上进行,使用平均精度均值(mAP)进行评估。为了评估触觉到文本的检索,作者为触觉图像的接触点从其视觉输入中标注了文本描述,作为配对的真值文本。通过计算输入触觉与其他模态之间的余弦相似度进行排序,得到检索结果。由于该方法未经过配对音频或文本数据的训练,因此在这两个模态上的性能被视为零样本学习的表现。

与几种已建立的基线方法进行比较,包括典型相关分析(CCA)、偏最小二乘(PLSCA)、深度对齐表示(DAR)和深度监督跨模态检索(DSCMR)。实验结果(表4)显示,UniTouch在所有三个模态上都取得了最先进的性能,并且大幅度超越了那些使用成对模态数据训练的监督方法。这证明了UniTouch强大的跨模态对齐能力,无需显式的配对训练数据或额外的监督。

作者展示了如何将触觉嵌入与现成的图像合成模型结合,以零样本方式执行图像合成任务。具体包括触觉到图像的生成和基于触觉的图像风格化两个任务。使用了三个评估指标:Frechet Inception Distance(FID)、对比性视觉-触觉预训练(CVTP)和材料分类一致性。

触觉到图像生成:目标是仅从触觉生成图像。使用预训练的文本到图像扩散模型,以触觉特征为条件,并指导去噪过程。与现有的基于扩散模型的visuotactile方法相比,UniTouch生成的物体更加真实,且在数据集中未曾见过(见图4左图)。尽管与训练集中的视觉图像相比,FID得分略低,但在CVTP和材料一致性指标上表现更好,表明该方法有效地桥接了视觉和触觉(表5)。

触觉驱动的图像风格化:通过将输入图像嵌入与触觉嵌入混合,并输入到预训练的扩散模型中,实现了零样本的图像风格化。在图4(右图)中展示了定性结果,其中输入图像是Touch and Go数据集之外的分布。与现有的监督方法相比,即使在训练阶段看到了触觉图像,也未能根据触觉图像改变视觉风格。

解释基于视觉的触觉图像对于机器人等领域的精细任务至关重要,但由于人类的感知限制而具有挑战性。为了解决这个问题,作者将UniTouch嵌入集成到一个大模型(LLM)中,利用其对触觉图像的强大理解和推理能力,称之为Touch-LLM。Touch-LLM能够执行一系列触觉任务,如图5所示,包括抓取稳定性预测、触觉图像解释、触觉接触定位等。通过与三个开源的视觉-语言模型(VLMs):BLIP-2、InstructBLIP和LLaVA-1.5在触觉图像字幕任务中的比较,使用GPT-4进行自动评估,并根据参考响应对每个模型的生成结果进行评分。结果(表6)显示,Touch-LLM在触觉图像理解方面优于其他VLMs,即使使用的LLM不如其他模型使用的Vicuna强大。

作者进行了X到触觉的生成,以合成与视觉、语言和音频输入模态相对应的真实触觉图像。图1展示了从视觉输入及其文本字幕生成的合理且一致的触觉图像。在Touch and Go数据集上定量评估模型,通过测量由视觉生成的触觉图像与其对应的语言字幕之间的材料分类一致性,模型达到了55.3%的一致性,展示了生成结果的可靠性。

消融研究探讨了每个模块设计在Touch and Go数据集上零样本材料分类任务中的重要性。基线模型,一个将触觉嵌入与固定视觉编码器对齐的普通transformer模型,在应用于多个传感器和数据集时性能显著下降,表明了传感器领域差距的困难。通过添加传感器特定标记,性能提高了17%。同样,通过添加采样策略,性能又提高了19%。这些结果强调了所提方法对于从多个传感器学习更好触觉表征的重要性。

作者探索了语言提示如何帮助理解触觉,这是该领域的首次尝试。由于视觉捕获了更多的全局和语义信息,而触觉侧重于材料属性、纹理和微观几何形状,直接采用视觉-语言工作中的提示可能无法获得满意的结果。作者设计了针对触觉的特定提示模板,通过采用常见的视觉-语言提示并用与触觉相关的词汇替换,例如将“image”更改为“touch image”,将“look like”更改为“feel like”(见表7)。通过在Touch and Go和ObjectFolder 2.0数据集上使用零样本材料分类任务进行评估,发现这些提示可以显著提高性能,表明语言确实可以理解触觉。

表8展示了消融研究的结果,证明了所提出的每种贡献的有效性。通过结合传感器特定嵌入和批内采样策略,可以有效处理不同传感器之间的困难样本,从而提高性能。

为了更直观地展示研究成果,研究团队还建立了一个项目页面,可以通过以下链接访问更多信息和可视化结果: ​​​​​​​https://kimi.moonshot.cn/chat/cqpid3g17fm1k4buqe70

论文链接:https://arxiv.org/abs/2401.18084

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值