人形机器人凭借其类人的感知交互能力、肢体结构和运动方式,能够快速融入为人类设计的各种环境,可以在简单重复劳动和危险场景中替代人类,在复杂技能场景中辅助人类,在商业和家庭场景中服务人类。未来人形机器人的广泛应用将深刻改变社会形态和人们的生产生活方式,有望成为继个人电脑、智能手机、新能源汽车后的新终端,形成新的万亿级市场。本文简要介绍人形机器人的发展历程、进展和关键技术。
文 | 开山
全文5500字,预计阅读15分钟
什么是人形机器人?
人形机器人是指模仿人类外观和行为,具备较高智能化水平的机器人,有着与人类相似的“肢体”结构、运动方式和感知方式,具备自感知、学习和决策能力。人形机器人具备拟人智能、类人形态和广泛适用三个特点:
一是拟人智能,是指人形机器人可通过人工智能大模型实现拟人化的感知、决策和控制能力,同时通过云大脑和智能网联实现算力和智能的飞跃;
二是类人形态,人的形态是生物进化自然选择的结果,当前社会中的所有基础设施、工具产品均为人类形态设计,人形机器人通过类人形态的模拟,能够快速融入各类环境中执行任务,实现较强的通用性和适应性;
三是广泛适用,人形机器人具备比人类更强的耐受性和适应性,有效解决劳动力短缺问题,可以在民生服务、工业生产、特种作业等领域广泛应用,发挥优势。
人形机器人发展历程
回顾人形机器人发展历程,主要可分为以下几个阶段:
1. 技术积累阶段(20世纪50年代及之前)。机器人理论和技术从理论开始走向实践,1954年世界上第一台可编程的机器人Unimate问世。
2. 探索阶段(20世纪60年代末至90年代)。以日本早稻田大学为代表,开发了一系列机器人如WAP、WL、WABIAN和WABOT等。主要特点是基本实现双足行走功能和控制能力,初步实现拟人化的结构,整体运动能力较弱。
3. 集成发展阶段(本世纪初至2010年)。以感知和智能控制整合为主要特点,本田公司的ASIMO系列人形机器人,通过感知和智能控制技术结合,具备初步的感知系统,能够感知周围环境的基本信息,并做出简单判断和动作调整。
4. 高动态发展阶段(2010年至2022年)。机器人的认知能力在控制理论和技术的驱动下有所提升,能够独立、稳定地执行复杂动作,具备了较强的运动能力。本田升级版ASIMO机器人能够精准完成抓取物体和倒液体等精细任务,波士顿动力的ATLAS机器人采用液压驱动路线,能够在挑战性场景中保持平衡并实现高动态运动。
5. 智能化发展阶段(2022年至今).在人工智能技术赋能下,机器人有了更加智能化的感知、交互和决策能力。电驱动成为肢体技术主流,实现更加精准的行走和操作,提高了研发迭代速度。如特斯拉的Optimus机器人,基于自研芯片通过端到端模型实现决策以及手势等识别,使机器人的四肢更加灵敏,能够实现流畅和自然的动作。
特斯拉人形机器人近年来发展迅速
近几年,伴随着人工智能快速发展,特斯拉人形机器人进展迅速,迈入智能化发展的新阶段,量产及商业化落地提上日程。
从2021年8月公布人形机器人项目到2022年9月展示一代原型机,再到2023年12月发布第二代人形机器人Optimus-Gen2,在硬件上实现升级换代,核心关节及零部件设计、整机协调控制能力等均有大幅优化,机器人的灵活性、控制能力显著提升,展现了极快的产品迭代能力,使人形机器人性能提升和降本有了更快的可能。
2021年8月,Tesla在首个AI Day上第一次公开分享人形机器人概念Tesla Bot,代号为“擎天柱”(Optimus)。
2022年2月,推出Tesla Bot电线裸露的初代原型机,后于同年9月的AI Day上展示了Optimus的系列参数及相关视频,包括行走、浇花、在工厂搬运物品等行动能力,成为当时第一个没有遥控、外部电源,完全依靠AI算法、自身电池电控和高驱动的电驱执行器驱动的人形机器人。
特斯拉人形机器人进化历程
2023年5月16日,Tesla在 2023年股东大会上发布其人形机器人最新视频,其性能更加稳定、形态也更加自然。行走、抓取物体自然,能实现敲打鸡蛋而不打破。接入和特斯拉汽车同样的神经网络,可以更加全面完善地识别周边环境,探索环境并产生记忆。可以基于人类动作演示来进行动作的学习,升级了端到端的控制能力,能用机械手进行各种物体交互。
2023年9月,特斯拉在推特(X)平台上展示了Optimus机器人的最新进展,视频展示了视觉自标定、颜色分拣任务、单脚保持平衡等能力。在感知方面,通过视觉感知及关节位置编码器,Optimus便可自动校准四肢,并精准定位四肢的空间位置。在运动控制能力方面,Optimus可以精准抓取物品,在做出动作时,该机器人的四肢、躯干、手指动作都极为灵活,且与人类接近。
2024年10月11日,特斯拉展示Optimus跳舞、倒酒、分发礼品、与观众互动等动作。相较于前次展示表现出更高的灵活度和稳定性。此外发布会现场短暂单独展示了一款不同于以往配置的新型灵巧手,该灵巧手运动更加迅速丝滑,并且自由度相比现有版本有所提升。人形机器人上肢是完成运动输出的重要部分,硬件持续迭代升级有望进一步提升人形机器人交互性能。
2024年12月10日,特斯拉发布了人形机器人Optimus上下山的视频,展示了Optimus机器人不依赖视觉就能征服复杂地形的能力。
特斯拉人形机器人擎天柱将兼具工业和家庭用途,特斯拉计划于2025年开始小规模生产人形机器人Optimus,并优先在特斯拉内部使用,预计到2025年年底,在运行的Optimus将达到千台,甚至数千。特斯拉的最终目标是在2026年实现Optimus的大规模生产,并面向其他公司提供服务。
人形机器人成为具身智能最佳载体
具身智能(Embodied Intelligence)是一种将智能与物理实体相结合的概念,强调智能系统通过其物理形态(身体)与环境进行互动,从而产生智能行为。被认为是实现通用人工智能(AGI)的关键路径之一。
具身智能强调身体与环境的交互,即智能不仅仅存在于大脑或计算机中,而是通过身体与环境的互动而表现出来。具身智能体不仅需要具备强大的多模态感知能力,能够理解语言指令、感知环境中的多模态元素,并执行适当的操作。而且需要将数字空间中学习到的技能迁移泛化到物理世界中。
AI大模型赋能,人形机器人成为具身智能的最佳载体:
1)语言能力方面,快速迭代的ChatGPT具有不亚于人的语言生成能力,为机器人的语音交互难题提供了解决方案,2023年4月,人工智能公司Levatas与波士顿动力合作,将ChatGPT和谷歌语音合成技术接入Spot机器狗,实现与人类的交互;
2)视觉能力上,在SAM模型的加持下,机器视觉的准确性、识别速度和零样本迁移能力得到革命性提升,有望赋能人形机器人适配更多工业场景和生活场景;
3) 运动控制方面,以AI模型为基础的运动控制系统目前仍在不断迭代中,未来有望广泛应用于人型双足机器人的平衡和协调性控制;
4)降低成本上,AI虚拟仿真测试大幅降低了测试成本,提升数据收集效率,加速产品迭代周期。此外,AI大模型广泛也应用于人形机器人的自动化决策、路径设计与规划等领域。人形机器人有望成为人工智能的最佳载体,充分享受到AI大模型高速发展的红利。
人形机器人关键技术
人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,有望深刻改变人类生产生活方式,成为科技竞争的新高地、未来产业的新赛道、经济发展的新引擎。
技术角度来看,人形机器人主要由“大脑”、“小脑”和“肢体”三大部分组成。2023年11月2日,工业和信息化部印发的《人形机器人创新发展指导意见》中提出,到2025年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,确保核心部组件安全有效供给,为机器人关键技术攻关指明了方向。
1. “大脑”向端到端的大模型演进
“大脑”是指基于人工智能大模型的机器人控制系统,负责环境的感知、行为控制、人机交互等能力。人工智能大模型是实现高度智能化人形机器人的关键技术之一,大模型可以接受视觉、语言、触觉等多种信息输入,提升人-机-环境交互能力,目前常见的有 NLP 大模型、CV 大模型和多模态大模型等。大模型技术的快速迭代,为人形机器人的产业落地提供了重要的技术支撑。
NVIDIA在CES 2025发布Cosmos平台
NVIDIA 在 CES 2025 上推出的内含生成世界基础模型的Cosmos平台,有望成为重要的市场动能。黄仁勋表示,通用人形机器人技术极其难以实现,但随着Transformer 模型、大型语言模型以及基础模型方面的突破,必要的技术已近在眼前。在全景宇宙omniverse虚拟仿真环境中,英伟达可以创建多个不同的多元宇宙,让机器人并行学习,从而显著缩短机器人训练的时间。
技术路线上看,目前基于大模型的“大脑”技术路线正处于并行探索阶段,并逐渐向端到端的大模型演进。
路线1是“非端到端”,采用“LLM(大语言模型)+VFM(视觉基础模型)”或VLM(视觉-语言模型)来实现控制,生成机器人的运动序列,实现人机语言交互、任务理解、推理和规划;
路线2是“半端到端”,采用“视觉-语言-动作(VLA)模型”,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,在VLM基础上增加运动控制,解决机器人运动轨迹决策问题;
路线3是“完全端到端”,采用多模态大模型,实现对物理世界环境的全面感知,是未来主要的研究方向。
何为端到端?端到端背后的逻辑是克服传统方式依赖先验环境建模的问题,直接实现通过从感知到控制功能的映射。以往的AI/机器人的决策逻辑是感知→判断→决策,大模型的加入让决策逻辑变成感知→决策。
以避障为例,以往的机器人避障全流程如下:①通过传感器感知障碍物存在,确定障碍物时空信息,例如与障碍物相距多远并预测其下一步轨迹;②根据内置的程序算法,提取与判断是否进行避障的数据要素,例如能否直接跨过/需向左或向右绕行才可通过,判断完毕得出答案,发送给执行端;③执行机构收到控制机构判断结果,执行避障行为。
而搭载端到端后的机器人避障流程如下:①感知障碍物的时空信息;②根据视频学习的信息总结出的规律直接做出避障决策。简单理解则是传统机器人根据人类设定好的规则逻辑行动,而端到端则是模拟人类本身思考过程。
当前,人形机器人“大脑”刚刚具备初阶人类脑力,仅能完成部分工作,无法形成人类大脑全能力闭环,同时情感表现处于模拟层面,未来发展需要大量的数据和强大的算力做支撑,AI大模型则是未来人形机器人的核心竞争力所在。海量的数据(可以是图形/文字/视频/语音)需要涵盖在应用场景中可能会发生的所有情形,强大的算力则是支撑运行海量数据的核心。
2.“小脑”向基于学习的控制方法演进
“小脑”负责控制人形机器人的运动,目前主要基于人工智能、自动控制、机器人操作系统等实现复杂环境下的运动控制。
传统的基于模型的控制方法通过建立机器人的运动学和动力学模型,进行运动轨迹规则和平衡控制,身体控制较稳健、步频较慢,但整体开发较为复杂,成本高。而基于学习的控制方法则使用端到端的人工智能技术,代替复杂运动学模型,大幅度降低“小脑”开发难度、提升迭代速度,可通过人类示教或自主学习建立运动执行策略。基本技术路线包括:
1)强化学习。即通过奖励合计和仿真环境设计,实现受控步态、奔跑、转弯、上下台阶等运动学习,提升运动的鲁棒性。同时可采用因果Transformer模型,从观测和行动的历史中对未来行动进行回归预测来训练;
2)模仿学习。采用非线性最有求解的动作映射,以人机关节轨迹相似为目标,以机器人可执行性、安全性、稳定性判据为约束,规划运动方案,耗时较长。
目前,人形机器人的“小脑”核心技术正在从基于模型的控制方法向基于学习的控制方法演进。尽管大模型在机器人控制中展现了广阔应用前景,如何进一步提高其实时性、鲁棒性和可解释性仍然是亟待解决的问题。
3.“肢体”执行机构核心路线已转为电驱动,CPU+GPU成为主流芯片方案
“肢体”则主要负责实现高动态、高爆发、高精度运动,包括仿人机械臂、灵巧手、腿足等关键结构。是人形机器人实现所有拟人功能的载体和基础,技术角度来看,主要包括执行机构、芯片、传感器、电源、新材料等方面的先进技术。
其中,执行机构和核心技术路线已由液压驱动全面转为电驱动,相比液压驱动,电驱动的优点是成熟可靠、寿命长、鲁棒性好、成本低、易于控制、相应速度快、能量转换效率高。同时主要缺点是本身扭矩密度较低,需要搭配减速器使用;人形机器人的芯片主要包括处理器芯片、控制芯片和总线管理芯片,其中处理器芯片是功能实现的核心,主流技术为CPU+GPU方案;传感单元是实现复杂感知功能、与环境交互的基础,人形机器人所需的传感器类型主要包括六维力传感器、关节扭矩传感器、拉压力传感器、指尖测力传感器、视觉传感器、触觉传感器等多种类型。
参考文献
[1] 中国信通院,人形机器人产业发展研究报告2024,2024年12月
[2] 亿欧智库,2024年人形机器人核心场景发展洞察研究报告,2024年8月
- END -
▎推荐阅读
▎好书推荐
01
本书由吴冬升、李大成担任主编,机械工业出版社出版。书中在分析智慧城市重点建设内容和智能网联汽车重点发展内容基础上,进一步探讨智慧城市与智能网联汽车融合发展带来的车联网智能道路基础设施、新型能源基础设施、地理位置网、现代信息通信网、车城网平台建设和发展情况。并且介绍智慧城市与智能网联汽车融合创新发展的相关案例。了解详情请点击:【新书推荐】《智慧城市与智能网联汽车,融合创新发展之路》
吴冬升 博士
▼点击下图链接购买
02
本书由吴冬升、董志国两位博士主编,机械工业出版社2023年隆重出版。书中详细分析5G、智慧交通及自动驾驶的现状及发展趋势, 阐述城市公共交通、共享出行、智慧物流的最新进展。了解详情请点击:《新书上架!《5G与智慧交通,加速未来出行大变革》》
▼点击下图链接购买
03
继2020年《5G与车联网技术》、2021年《从云端到边缘:边缘计算的产业链和行业应用》出版之后,吴冬升博士带领「5G行业应用」作家团队推出又一力作——《车联未来:5G车联网创新商业模式》。本书由化学工业出版社出版,聚焦5G车联网商业模式,探索车联网未来可持续性发展之路。了解详情请点击:《车联未来:5G车联网创新商业模式》
▼点击下图链接购买
关于我们
「5G行业应用」是聚集TMT行业资深专家的研究咨询平台,致力于在5G时代为企业和个人提供客观、深入和极具商业价值的市场研究和咨询服务,帮助企业利用5G实现战略转型和业务重构。本公众号专注提供5G行业最新动态及深度分析,覆盖通信、媒体、金融、汽车、交通、工业等领域。