前言
目前整个科技圈的大浪潮有两个,一个是由ChatGPT开始爆火的大模型浪潮,另一个就是大家目前看到几乎科技圈大厂都在卷的人形机器人,更广泛一点的称呼叫具身智能浪潮。尤其是从上周世界机器人大会看到国内外企业在人形机器人的投入和展示,内心只能说机器人的时代快来了!
| |
具身智能是通过在物理和数字世界中的学习和进化,实现理解世界、互动交互并完成任务的目标。我们一般认为它由“本体”和“智能体”组成,并在复杂环境中执行任务。
最终的目标是:智能体通过与物理世界(虚拟或真实)的交互,适应新环境、学习新知识并解决实际问题。
- 本体:机器人本体,在物理环境或者虚拟环境中进行感知和任务执行。
- 智能体:具身于本体之上的智能核心,负责感知、理解、决策和控制。
- 数据:用于泛化和训练。
从具身智能的概念来看,其实是大家希望具身智能本体能够帮助人解决实际问题,从而解放大家的生产力。
回到我们现在已有的模式,机器人本体是如何帮助大家解决问题呢?最常见的做法就是定义了需求之后,由工程师通过编程或者示教等手段定制化的到某一个场景下去解决问题,机器人本身并不能够思考并找到代码之外的解决思路。
具身智能的模式则存在一些不同,一般具身智能本体也会有传感器,比如视觉和语言等,结合到视觉信号、语音信息,机器人本体就能根据读取到的信息进行任务的分解和环境的理解,然后通过自己编程实现自己要完成的事情。
两种模式的差别就在于,一种是人在教机器做事,另一种是机器人自己在学习人的模式去做事。大家会发现具身智能就有点像是深度学习和传统机器人的结合体。
- 大模型可以帮助机器人去理解消化知识,构成了机器人的智能体;
- 机器人本体则依旧延续机器人传统知识,真实的去解决实际物理环境下的运动;
机器人类型 | 主要应用领域 | 技术细节 | 代表性机器人 |
固定基机器人 | 实验室自动化、教育训练、工业制造 | 高精度传感器和执行器、编程灵活性、微米级精度 | Franka Emika Panda, Kuka iiwa, Sawyer |
轮式机器人 | 物流、仓储、安全检查 | 结构简单、成本低、能效高、快速移动 | Kiva 机器人, Jackal 机器人 |
履带式机器人 | 农业、建筑、灾后恢复、军事应用 | 强大的越野能力和机动性、稳定性和牵引力 | PackBot |
四足机器人 | 复杂地形探索、救援任务、军事应用 | 多关节设计、适应性强、环境感知能力强 | Unitree A1, Go1, Boston Dynamics Spot, ANYmal C |
人形机器人 | 服务行业、医疗保健、协作环境 | 类人外形、多自由度手设计、复杂任务执行能力 | Atlas, HRP 系列, ASIMO, Pepper |
仿生机器人 | 医疗保健、环境监测、生物研究 | 模拟自然生物的运动和功能、柔性材料和结构 | 鱼类机器人, 昆虫机器人, 软体机器人 |
模拟器在具身智能中起到了至关重要的作用,通过提供虚拟环境,帮助研究人员进行成本低、安全性高和可扩展性强的实验和测试。
通用模拟器提供了一个与物理世界高度相似的虚拟环境,用于算法开发和模型训练,具有显著的成本、时间和安全优势。
具体模拟器案例分析:
- Isaac Sim:一个先进的机器人和AI研究模拟平台,具有高保真物理仿真、实时光线追踪和丰富的机器人模型库,应用场景包括自动驾驶、工业自动化和人机交互。
- Gazebo:一个开源的机器人研究模拟器,支持各种传感器仿真和多机器人系统仿真,主要用于机器人导航和控制。
- PyBullet:Bullet物理引擎的Python接口,易于使用,支持实时物理仿真,主要用于强化学习和机器人仿真。
这些模拟器通过收集真实世界的数据,创建高度逼真的3D场景,使其成为家庭活动中的具身智能研究的首选。
具体模拟器案例分析:
- AI2-THOR:基于Unity3D的室内具身场景模拟器,包含丰富的交互式场景对象和物理属性,适用于多代理模拟和复杂任务的研究。
- Matterport 3D:一个大型2D-3D视觉数据集,包含丰富的室内场景,广泛用于具身导航基准测试。
- Habitat:一个开源的大规模人机交互模拟器,基于Bullet物理引擎,提供高性能、高速、并行的3D模拟和丰富的接口,适用于强化学习的具身智能研究。
研究领域 | 主要目标 | 具体方法 |
具身感知 | 视觉同时定位与地图构建(vSLAM) | 传统vSLAM(MonoSLAM、PTAM、ORB-SLAM)、语义vSLAM(SLAM++、DynaSLAM) |
3D 场景理解 | 投影法(MV3D)、体素法(VoxNet)、点云法(PointNet) | |
主动视觉感知 | 交互式环境探索(Pinto等)、视觉方向变化的探索(Jayaraman等) | |
触觉感知 | 非视觉触觉传感器(BioTac)、视觉触觉传感器(GelSight) | |
具身交互 | 3D视觉定位 | 双阶段方法(ReferIt3D、TGNN)、单阶段方法(3D-SPS、BUTD-DETR) |
视觉语言导航(VLN) | 基于记忆与理解的方法(LVERG)、基于未来预测的方法(LookBY) | |
对话系统中的具身交互 | 基于大模型的对话系统(DialFRED)、多智能体协作(DiscussNav) | |
具身代理 | 多模态基础模型 | 多模态数据融合与表示(VisualBERT)、代表性模型与应用(UNITER) |
具身任务规划 | 任务分解与执行(HAPI)、复杂任务的规划与实现(TAMP) | |
模拟到真实(Sim-to-Real)适应 | 具身世界模型 | 世界模型的模拟与理解(Dreamer)、实际应用案例分析(PlaNet) |
数据收集与训练 | 数据集的创建与优化(Gibson) | |
具身控制 | 控制算法与策略(PPO)、实例与应用(DRL) |
大家也会发现,无论是本体又或者是智能体的学习,其实都有各自很多细分的领域,但是有一些基础内容是一致的,接下来介绍一般性的基础知识:
点击具身智能学习笔记(一)查看全文。