OpenAI大模型加持的机器人,深夜来袭!名曰Figure 01,它能听会说,动作灵活。能和人类描述眼前看到的一切:
“我在桌子上看到了一个红色的苹果,沥水架上面还有几个盘子和一个杯子;然后你站在附近,手放在桌子上。”
听到人类说“想吃东西”,就马上递去苹果。
而且对于自己做的事有清楚认知,给苹果是因为这是桌上唯一能吃的东西。还顺便把东西整理,能同时搞定两种任务。
最关键的是,这些展示都没有加速,机器人本来的动作就这么迅速。好家伙,网友都去紧急艾特波士顿动力、特斯拉了。
Figure发布了一个巨牛的演示,LLM的多模态对话能力加上机器人对物质世界的干涉能力,我们设想的那种机器人可能真的快了。
项目的一些背景信息
OpenAI + Figure
在基于端到端神经网络的框架下与人类进行对话:
-
OpenAI负责提供视觉解析和语言理解能力
-
Figure的神经网络则负责实现快速、基础、灵活的机器人动作
(下面是相关讨论) 这里提供一些背景信息:
两周前,我们宣布Figure + OpenAI联手,致力于推动机器人学习的新阶段。我们共同开发着下一代人形机器人的AI模型
自那以后已过去13天,今天我们很激动地分享这些最新进展 视频里展示的是端到端神经网络的运作,并没有进行远程操控。同时,视频是以正常速度(1.0倍速)连续拍摄的。
如视频所示,机器人的运动速度已经大幅提升,逐渐接近人类速度 Figure的机载摄像头将图像输入到OpenAI训练的大型视觉-语言模型(VLM)。
Figure的神经网络还能通过机器人上的摄像头以每秒10帧的速度处理图像。随后神经网络以每秒200次的频率输出具有24个自由度的动作。
除了开发领先的AI技术,Figure还实现了全面的垂直整合。我们拥有专业的工程师团队,负责设计:
-
电机
-
固件
-
散热系统
-
电子组件
-
中间件操作系统
-
电池系统
-
执行器传感器
-
机械与结构设计