自2022年GPT等大模型的爆发以来,人工智能领域以语言模型为代表的预训练模型在多个领域掀起了创新浪潮。到了2024年,DeepSeek等新技术进一步加速了具身智能的发展,特别是在机器人领域,预训练模型的引入深刻改变了传统的感知、决策和执行模式。具身智能(Embodied Intelligence)强调模型在物理环境中的交互能力,并致力于实现机器人与环境的深度结合。得益于互联网规模的数据和更高效的计算资源支持,研究者在过去几年内将预训练模型作为机器人感知、认知和执行的核心工具,加速了具身智能的落地应用。
在这个节点,我们总结并梳理了2022年以来,大模型在机器人领域应用的最具影响力的论文。
内容简介
机器人领域集成了人工智能、机器人学和认知科学,是一个感知,理解,决策和执行的端到端的过程,近年来,以互联网规模数据训练得到的预训练模型在感知、交互和推理方面得到显著提升,将它们作为具身抓取和操作方法的基座,极大推动了机器人应用领域的发展。在本文中,我们对该领域最新进展进行全面综述。首先总结具身基础,包括前沿的具身机器人、仿真平台、数据集和数据获取方式,以充分了解研究重点,然后介绍具身算法,从预训练模型开始,到三个主要研究目标,1)具身感知,利用视觉传感器捕获的数据,得到3D特征或进行三D重建,结合预训练模型,来理解目标物体和外部环境,直接预测执行动作;2) 具身策略,在模仿学习中,