先前的关于机器人操作的预训练工作表明,从大量人类操作数据中学习到的内容, 可以很好地泛化到新的操作任务以及操作环境当中。然而, 先前的方法主要集中在人类视觉或者自然语言方面, 忽视了触觉反馈。在本文中, 作者探索了如何使用人类的视觉和触觉数据来训练机器人操作的预训练模型。
首先作者建立了一个低成本的视觉触觉数据采集系统, 收集了人类的视觉触觉操作数据集, 并使用一个名为 M2VTP 的模型来进行预训练的学习。随后作者将预训练的模型集成到强化学习框架中, 用于机器人操作。实验结果表明, 与基准方法相比, 作者的方法在学习操作技能方面具有显著的效果。此外, 与当前的视觉预训练方法相比, 作者的方法的成功率 提高了 50% 以上。论文还提出了未来的研究方向, 包括建立更灵活和高质量的数据采集系统、收集更广泛场景的大规模多模态人类操作数据集、研究不仅限于视觉和触觉的多模态融合模型, 以及在更多视觉触觉任务上进行研究。
-
相关工作
作者从三个方面(机器人预训练,用触觉信息进行操作, 融合触觉信息的模型)分析以往的机器人操作预训练相关的工作。目前的预训练方法主要集中在人类视觉或自然语言方面, 忽视了触觉反馈。作者提到了一些使用视觉预训练的方法, 如自监督学习和增强学习。然而, 这些方法都没有考虑到触觉信息的重要性。作者还提到了一些使用触觉预训练的方法, 如使用触觉数据进行逆向模型学习和使用触觉数据进行自监督学习。然而,这些方法都没有充分利用视觉信息。因此, 本文的方法是首次将视觉和触觉数据结合起来进行预训练。 -
方法
本文介绍了如何制作低成本的触觉手套和建立视觉触觉采集系统, 以收集用于人类操作的视觉触觉数据集。然后, 本文提出了一种全新的视觉触觉融合框架 M2VTP, 用于融合视觉和触觉模态。接下来, 本文将预训练模型嵌入到强化学习结构中, 提取视觉触觉潜在表示, 使智能体能够理解环境中的下游任务。 <