应用于可变形表面主动滑动预测的视触觉自监督表征学习

多感官跨模态感知在人类早期认知发展中起着至关重要的作用,例如:我们能够通过触觉感知物体的某些性质,例如滑度和粗糙度。然而在拥有足够的视觉、触觉经验后,我们也能够仅在视觉感知下关联这些属性,如图1所示。在实际生活中人类广泛利用视觉和触觉作为互补的感官,使用视觉能够提供关于场景的全局信息,而使用触觉测量局部信息时的操作不受环境遮挡,这为实现视、触觉的结合提供了一个很好的思路。在Learning Self-Supervised Representations from Vision and Touch for Active Sliding Perception of Deformable Surfaces中,该团队提出了一个新颖的框架,以自监督的方式学习多任务视触觉表征,在一定程度上实现了视觉触觉的有机结合,并取得了良好的效果,证实了视觉-触觉表征学习具有灵活性,为未来研究更广泛的、有关机器人操作任务的无关表征提供了动力。
在这里插入图片描述

(图片来源:Deep Visuo-Tactile Learning: Estimation of Tactile Properties from Images)

图1:三种不同柔软度的材料

该团队在涉及可变形表面的5个感知和控制任务上对表征学习进行了评估,这些任务包括触觉分类、接触定位、异常检测、视觉引导搜索以及沿毛巾和电缆的边缘触觉伺服。表征学习在毛巾特征分类上的成功率为80 %,在手术材料异常检测上的平均成功率为73 %,在视觉引导触觉上的平均成功率为100 %。

在这里插入图片描述

图2:实验结果总结

该项目训练了一个视觉编码器和一个触觉编码器,两编码器共同输入到共享输出表征空间,利用收集到的数据和一种对比损失来学习隐空间中的视触觉联结。使用灰度相机图像作为视觉编码器的输入,以避免对材料颜色的过拟合,并进行亮度和对比度的翻转和颜色抖动来增强所有图像,使网络对输入图像的方向和光照不敏感。训练好的编码器的输出是学习到的隐空间中的d维嵌入。如图3所示。

在这里插入图片描述

图3:系统概述 (a)自我监督系统框架,以收集4500张空间对齐的视触觉图像,并使用该数据集学习共享视触觉隐空间。在不进行微调的情况下利用这一隐空间执行三项主动滑行感知任务:(b)异常检测、(c)视觉引导搜索、(d)触觉伺服,以及两项被动感知任务:定位以及分类。

整体流程:

使用训练好的编码器和无需微调的旋转网络进行三个主动滑动感知集元用于下游任务。同时使用无需微调的的编码器开发了两个被动触觉感知的模块:用于定位的定位模块和用于分类的分类器模块。

在这里插入图片描述

图4:主动滑动感知任务

1 )触觉异常检测:定位触觉异常X发生的位置。如果机器人在触摸X时停止,则试验成功。当检测到异常时,机器人被减慢到20 %的速度。如果机器人在包含异常的触觉读数处停止,则认为试验成功,如图4(a)。

2 )视觉引导搜索:给定视觉查询图像,任务目标是利用触觉传感器搜索工作空间,寻找匹配。如果机器人在触碰查询图像中包含的特征时停止,则试验成功。当检测到目标时,机器人被减慢到20 %的速度。使用触觉异常检测作为基线,并为每个实验选取10个不同的开始位置,如图 4(b)。

3 )触觉伺服:给定一个具有统一方向特征的参考视觉图像,以及图像帧中指定的方向滑动的直线,目标是在不失去接触的情况下沿特征伺服触觉传感器,如图4©。

4 )触觉分类:给定一个触觉查询图像和一组典型的视觉图像(每类一幅图像),任务目标是确定触觉图像对应的类别。对输入触觉图像中的特征进行分类(例如,区分毛巾边缘和角落)是一项常见任务。先前的工作通过监督学习执行触觉分类,但人工监督耗时。本文通过提供事先考虑的规范视觉图像的类,从经过训练的编码器构建分类器。使用与训练期间相同的增强方式来增强这些视觉图像,并将其嵌入Z中。之后使用加权k近邻算法对触觉输入进行分类(图5),这一技术在隐空间的分类中被证明是有效的。
在这里插入图片描述

图5:触觉分类。给定类别(实线中的图像)的标准视觉图像,增加这些输入(虚线中的图像)并将它们嵌入到潜在空间,然后对触觉输入图像应用k - NN分类。

5 )触觉定位:该模块给定整个工作空间自上而下的视觉图像和触觉图像以及输出接触位置的概率分布数值。将输入的视觉图像划分为具有统一补丁大小和分辨率的网格,并计算每个补丁嵌入与触觉嵌入的余弦相似性,如图 6 所示。这产生了预测的视觉和触摸之间的相似性在补丁位置上的分布。

在这里插入图片描述

图6:触觉定位。将输入的拉链触觉图像与整个场景的视觉图像进行离散化补丁比较。在这个例子中,热力图显示在拉链附近匹配的概率很高。

总结:

本文提出了一种从自监督数据中学习视觉触觉表征的框架,并将表征学习应用于3个主动感知任务和2个被动感知任务。结果显示了表征学习对于多任务合用的灵活性。

相较于与之前研究本文的创新点如下:

1 )一种新颖的自监督真实数据收集框架和硬件设计,用于收集可变形表面上空间对齐的视觉和触觉图像对。

2 )一种表征学习方法,通过使用对比损失和单独的网络来预测旋转差异来训练旋转不变的隐空间,从而解耦纹理和旋转。

3 )将学习到的表征用于3个滑动感知任务:触觉异常检测、视觉引导搜索和主动触觉伺服,以及2个被动任务:定位和分类。

4 )一个公开的视觉-触觉数据集,包含4500个真实的、空间对齐的可变形表面上的视觉和触觉样本,与之前没有空间对齐的大型数据集形成对比。

该方法也存在一些局限性:一、learned latent space是非度量的,使得查询任务的性能对选择的阈值敏感。二、由于DIGIT传感器在桌面上,物体的分布仅限于2.5维的可变形表面。三、在数据收集轮次之间,仍然需要一些人为的监督来重置场景;所以,在未来,数据收集过程的完全自动化将大大提高方法的可扩展性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值