腾讯首席科学家张正友中国具身智能大会演讲:层次化的智能机器人控制架构SLAP...

感谢阅读腾讯 AI Lab 微信号第 183 篇文章。本文介绍腾讯首席科学家张正友在 2024 中国具身智能大会(CEAI 2024)在开幕式上发表的演讲全文。

近日,腾讯首席科学家张正友在 2024 中国具身智能大会(CEAI 2024)在开幕式上发表演讲,介绍腾讯在具身智能上的研究进展。张正友表示,有别于业界端到端的解决方案,腾讯提出层次化学习解决方案。在 SLAP(感知、学习、行动、规划)的框架下,通过多个层次的不断积累和更新知识,让机器人更加智能,能够与现实世界进行交互,实现真正的具身智能,包括反应式的自主和有意识的自主。

2024中国具身智能大会聚焦「具身共生,智塑未来」主题,由中国人工智能学会(CAAI)主办,中国人工智能学会具身智能专委会(筹)、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办,全球高校人工智能学术联盟协办。

94ed98ccf796f1f548f57e50f0379f13.jpeg

以下为现场演讲实录:

张正友:非常感谢会议组织者的邀请,让我有机会跟大家分享最近几年腾讯 Robotics X 小伙伴们做的工作。我的报告内容是具身智能——层次化的智能机器人的控制架构 SLAP。

7b039917b8ea790e3c8ef3647e613ab5.png

具身智能是指有物理载体的智能体在与物理世界的交互过程中通过感知、控制和自主学习来积累知识和技能,形成智能,并影响物理世界的能力。

这个就和平常大家了解到大模型不太一样,具身智能需要通过类人的感知,比如说视觉、听觉、语言、触觉来获取世界的信息,再通过抽象的进行表达,来理解世界并做出行动,与周围的环境进行交互。具身智能涉及多个学科的融合,是所有领域发展到一定程度之后才能涌现出的能力。

具身智能是很重要的,上周 OpenAI CEO Sam Altman 在接受采访的时候也表达了类似的观点。他说:「如果我们有了通用人工智能,而在物理世界中完成事情的唯一方法就是让人类自己去做,那就太令人沮丧了。我们会在某个时候以某种方式重返机器人领域。」大家知道,OpenAI 最初是希望直接用机器人达到 AGI。所以 AGI 的最终形态,大家都认为应该是机器人。

e75cff295feeebcb0193d9e6c5af64e6.png

智能是否需要具身?这一点目前大家还没有达成一致。在研究领域里一直有一个辩论,到底一个智能系统需不需要具身?有一些人认为,智能是不需要具身的。智能主要是信息处理,所以未必一定要物理形态相关。比如目前大模型或者智能语义理解领域,就有部分研究者认为未必需要具身。另外一种讲法是说智能需要具身,因为智能源于生物体和环境的互动,所以需要物理的形态。当然我相信在座的嘉宾来参加这次会议都是相信实体形态对智能是非常重要。

4ba69834576019896cbb26967f43916d.png

大家都在说,今年是具身智能元年,但是具身智能并不是新的概念,这个概念提出已经非常久了,图灵在 1950 年的文章里就讲了两种形态:一种是非常抽象的活动,比如说像下棋;还有一种可能性是建一个有感知系统的机器,这其实就是具身智能的概念了。

0500e09948fba6cd8fcbd57fb7de4ba9.png

从具身智能的发展趋势来看,包括形态计算,还有软机器人、发育机器人、生物启发式机器人等等。

5d1ca0eb9df8b6e8e196f35cfdfe214f.png

2009 年我在 IEEE 创建了一本的杂志叫《IEEE Transactions on Autonomous mental development》,现在改名为《IEEE Transactions on Cognitive and Developmental Systems》。这个杂志聚集了神经科学家、认知科学家、计算机科学家、机器人科学家四个大领域的人,目的就是为了推动能自主发育的具身智能体。

538247331fe0c0cd14381869b043a67c.png

具身智能领域,机器人的研究是基础,接下来我讲一下腾讯的 Robotics X。自从 2018 年 3 月成立以来,在过去六年里,我们发布了多款机器人,包括自平衡机器人、多模态机器狗 Max、轮滑机器人 Ollie,还有 IDC 运维机器人、灵巧手操作机器人等等。从腾讯 Robotics X 成立之初就基于 A2G 理论来指导我们的研究。

6c0ce33c258648096ffc3563d533a31f.png

A2G 从 A 到 G 就刚好对标了七个英文单词。首先是 A,AI(人工智能),机器人必须要有 AI,要能看、能说、能听、能思考。B 是 Body,我们要去探索不同形态的本体,机器人未必就是人形机器人,我们要思考探索哪一个形态比较适合。C 是 Control,也就是精准控制。D 是发育学习,机器人要在和人类、环境交互过程当中不断提升自己的能力,像小孩子一样能够不断成长,不是把外部智力注入之后就结束了,要在互动中不断成长。E 是 EQ,情感计算。我们和机器人要共生共存,那机器人必须要理解人类的情感,它的情感也要以某种形式让人类理解。F 是灵巧操作,只有能灵巧操作,才能让机器人为人类服务。G 是守护天使,机器人让人类的生活更美好。它不仅要和环境交互,还要和人,和家庭成员,和医疗机构形成一张网,真正成为我们的守护天使。

99e09e333926ffa363c05c7011107cb1.png

接下来给大家简单讲讲我们发布的一些机器人。比如说 Jamoca 和多模态机器狗 Max,Max 在膝盖上是有轮子的,它前面有视觉,可以实时识别梅花桩的位置、高度、大小,然后它要穿越梅花桩,这当中要求对视觉定位、控制都是非常高的。腿和轮子其实是用同一套控制系统来进行的,现在我们看到它已经换成了轮子。

497b7748ee8fe22518fb42e55d0ba66d.png

第二个是轮腿式机器人 Ollie,它既可以两轮也可以三轮,可以适应不同的地面,最顶端是有触觉感知的。

b75a6c57b596c4a4d60f638a19267b7b.png

第三个是灵巧手操作。这是我们用自研的三指手,三指上有我们自研的触觉传感器,利用花式调酒的形态来展示灵巧操作的能力。现在展示的是双手协作的能力,如果说没有很好的协作,手的力量可能就会发生问题,就可能损坏机械臂。

cd327673c37406fad3df058668bd8024.png

dafaf8a4e2b316ad9f48b95fa72e0ff0.png

刚才我把过去发布的几款机器人做了介绍。接下来讲讲我们层次化的机器人,我们感兴趣的是智能化的机器人,它可以适应不同的环境,在不确定性很大的情况下,能够自动调整和规划系统。自动化有两个自主,一类是反应式自主,就是在意想不到的情况下,能够很快适应变化,比如说被人家踢了一脚,或人走路被路上小石头绊了一下,都可以很快恢复。二是有意识的自主,比如要去开门,或者从讲台上走下来。

628284574b40fdfcf2fe852de449c0b0.png

如何实现这两类自主,传统的控制方式就是感知、规划、行动。但是这个传统的范式是无法适应反应式自主的,因为从感知上升到规划花费太多时间了。我提出了一个新的范式叫 SLAP,Sensing、Learning、Action、Planning,感知和行动是紧密相连的,只有感知和行动紧密相连才可以实现反应式自主。对于有意识的自主,可以上升到规划层面。学习要渗透到各个模块。

8d6fa07c9db8a1a6cb65a370e6d574dd.png

22861e295bdedc6a1e7cd494966f8c4b.png

这个范式和人类的认知系统相比,有相当大的一致性。人类感知是系统 1 和系统 2 的结合。反应式自主对应系统 1,只有在面对很艰难的问题的时候才上升到有意识的自主去思考,因为这些是比较慢的思考,消耗比较大的能量。

bafe3533803206202f5b366e67801f67.png

我们智能机器人控制就仿照层次化的控制,我们人类有小脑,大脑也有系统 1 和系统 2。我们现在是分成三层来控制,第一层是最基本的控制,是对自身状态的估计,proprioception,和要做出一些控制行动。第二部分是对环境的感知,exteroception,让机器人实现对不同环境的控制智能。最后是对任务的感知,然后从上到下,渗透到下面。这个跟大家主流的端到端控制是不一样的,我们的解决思路是层次化的,我会讲层次化的方式有什么好处。

55cf9c20c68cb6fde297cf0cc7322f8e.png

f36219774d81758513fabe2837382b93.png

首先讲一下第一层,最基本的层面我们要去学习,比如说机器狗怎么动才能往前走、转弯等,我们去拍了真狗的一些视频,运动轨迹什么的。我们通过强化学习、生成式 AI,使得机器人的控制能够达到类似于真狗运动的状态。 

我们看,它是有一点灵性的,人已经无法预测它要怎么跑了。

a3641a222f93652834995a78c1901dc8.png

71fa5fcd98357410b359fbfa485f5ec4.png

接下来是对环境感知的控制。在虚拟世界里,我们给它加各种各样的环境,比如说走楼梯、跳过障碍物等等,这些是通过强化学习学到的能力。我们也看一下视频。

这里面这个狗有感知能力了,我们说绕着两个柱子走「8」字形,他就能听懂我们的话了。包括跳过障碍物,都是它自己学会的,并没有狗的跳跃数据供它学习。这个是学会匍匐前进,这也是通过深度学习自己学的。

acbfbaf1f8f90cc571f4baaf72bbde3a.png

最上面一层就是任务,我们现在告诉它你要去完成这个任务,接下来怎么适应环境、怎么控制机器狗我们就不用管了。这里面的任务是说,一条狗要追上另外一条狗,如果追上就赢了。随机会出现一面旗子,如果逃避的那条狗踩到旗子之后两者的角色就翻转。

尽管我们没有用任何障碍物训练机器狗完成这个任务,在这个环境里加上障碍物我们就不需要额外学习了,因为最初的能力他已经学会了如何避障,这就是层次化学习的好处,我们来看一下演示视频。

dc05710507ba6be48281a6e4f37b2e29.png

层次化的好处是能够不断积累更新知识,而且每一个层次之间是解耦的。到下面一个任务需要改变的时候,上层不需要改,即使上层改了下层也不需要改。假如说我给机器狗学会了摔倒能够自己恢复的能力之后,我们把它加进去就可以了。来看一段视频。

56d214c1a1f5fbfe8ff97a7bb89f9d51.png

这是机器狗在运动,我们把它摔倒,它能够马上爬起来,按照原来计划继续前进,不会受影响。所以底层的控制和能力会不断加强。

以上是我的分享,谢谢大家!

9d4a1cf32b3b193fed471d5414ac5fdf.jpeg

* 欢迎转载,请注明来自腾讯 AI Lab 微信(tencent_ailab)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值