腾讯首席科学家张正友中国具身智能大会演讲：层次化的智能机器人控制架构SLAP...

最新推荐文章于 2024-07-12 13:00:20 发布

腾讯AI实验室

最新推荐文章于 2024-07-12 13:00:20 发布

阅读量279

点赞数 2

文章标签：机器人

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTg4MjEwNw==&mid=2247486555&idx=1&sn=fd7016f093e17545be6ce439aecb5f4f&chksm=e8f6a0bc7b1076d83a0947585d78bc113a9fb25a2a822e2f189edbb4d73953489977c2dedc26&scene=126&sessionid=0

版权

感谢阅读腾讯 AI Lab 微信号第 183 篇文章。本文介绍腾讯首席科学家张正友在 2024 中国具身智能大会（CEAI 2024）在开幕式上发表的演讲全文。

近日，腾讯首席科学家张正友在 2024 中国具身智能大会（CEAI 2024）在开幕式上发表演讲，介绍腾讯在具身智能上的研究进展。张正友表示，有别于业界端到端的解决方案，腾讯提出层次化学习解决方案。在 SLAP（感知、学习、行动、规划）的框架下，通过多个层次的不断积累和更新知识，让机器人更加智能，能够与现实世界进行交互，实现真正的具身智能，包括反应式的自主和有意识的自主。

2024中国具身智能大会聚焦「具身共生，智塑未来」主题，由中国人工智能学会（CAAI）主办，中国人工智能学会具身智能专委会（筹）、同济大学、中国科学院计算技术研究所、上海交通大学、中国经济信息社上海总部联合承办，全球高校人工智能学术联盟协办。

以下为现场演讲实录：

张正友：非常感谢会议组织者的邀请，让我有机会跟大家分享最近几年腾讯 Robotics X 小伙伴们做的工作。我的报告内容是具身智能——层次化的智能机器人的控制架构 SLAP。

具身智能是指有物理载体的智能体在与物理世界的交互过程中通过感知、控制和自主学习来积累知识和技能，形成智能，并影响物理世界的能力。

这个就和平常大家了解到大模型不太一样，具身智能需要通过类人的感知，比如说视觉、听觉、语言、触觉来获取世界的信息，再通过抽象的进行表达，来理解世界并做出行动，与周围的环境进行交互。具身智能涉及多个学科的融合，是所有领域发展到一定程度之后才能涌现出的能力。

具身智能是很重要的，上周 OpenAI CEO Sam Altman 在接受采访的时候也表达了类似的观点。他说：「如果我们有了通用人工智能，而在物理世界中完成事情的唯一方法就是让人类自己去做，那就太令人沮丧了。我们会在某个时候以某种方式重返机器人领域。」大家知道，OpenAI 最初是希望直接用机器人达到 AGI。所以 AGI 的最终形态，大家都认为应该是机器人。

智能是否需要具身？这一点目前大家还没有达成一致。在研究领域里一直有一个辩论，到底一个智能系统需不需要具身？有一些人认为，智能是不需要具身的。智能主要是信息处理，所以未必一定要物理形态相关。比如目前大模型或者智能语义理解领域，就有部分研究者认为未必需要具身。另外一种讲法是说智能需要具身，因为智能源于生物体和环境的互动，所以需要物理的形态。当然我相信在座的嘉宾来参加这次会议都是相信实体形态对智能是非常重要。

大家都在说，今年是具身智能元年，但是具身智能并不是新的概念，这个概念提出已经非常久了，图灵在 1950 年的文章里就讲了两种形态：一种是非常抽象的活动，比如说像下棋；还有一种可能性是建一个有感知系统的机器，这其实就是具身智能的概念了。

从具身智能的发展趋势来看，包括形态计算，还有软机器人、发育机器人、生物启发式机器人等等。

2009 年我在 IEEE 创建了一本的杂志叫《IEEE Transactions on Autonomous mental development》，现在改名为《IEEE Transactions on Cognitive and Developmental Systems》。这个杂志聚集了神经科学家、认知科学家、计算机科学家、机器人科学家四个大领域的人，目的就是为了推动能自主发育的具身智能体。

具身智能领域，机器人的研究是基础，接下来我讲一下腾讯的 Robotics X。自从 2018 年 3 月成立以来，在过去六年里，我们发布了多款机器人，包括自平衡机器人、多模态机器狗 Max、轮滑机器人 Ollie，还有 IDC 运维机器人、灵巧手操作机器人等等。从腾讯 Robotics X 成立之初就基于 A2G 理论来指导我们的研究。

A2G 从 A 到 G 就刚好对标了七个英文单词。首先是 A，AI（人工智能），机器人必须要有 AI，要能看、能说、能听、能思考。B 是 Body，我们要去探索不同形态的本体，机器人未必就是人形机器人，我们要思考探索哪一个形态比较适合。C 是 Control，也就是精准控制。D 是发育学习，机器人要在和人类、环境交互过程当中不断提升自己的能力，像小孩子一样能够不断成长，不是把外部智力注入之后就结束了，要在互动中不断成长。E 是 EQ，情感计算。我们和机器人要共生共存，那机器人必须要理解人类的情感，它的情感也要以某种形式让人类理解。F 是灵巧操作，只有能灵巧操作，才能让机器人为人类服务。G 是守护天使，机器人让人类的生活更美好。它不仅要和环境交互，还要和人，和家庭成员，和医疗机构形成一张网，真正成为我们的守护天使。

接下来给大家简单讲讲我们发布的一些机器人。比如说 Jamoca 和多模态机器狗 Max，Max 在膝盖上是有轮子的，它前面有视觉，可以实时识别梅花桩的位置、高度、大小，然后它要穿越梅花桩，这当中要求对视觉定位、控制都是非常高的。腿和轮子其实是用同一套控制系统来进行的，现在我们看到它已经换成了轮子。

第二个是轮腿式机器人 Ollie，它既可以两轮也可以三轮，可以适应不同的地面，最顶端是有触觉感知的。

第三个是灵巧手操作。这是我们用自研的三指手，三指上有我们自研的触觉传感器，利用花式调酒的形态来展示灵巧操作的能力。现在展示的是双手协作的能力，如果说没有很好的协作，手的力量可能就会发生问题，就可能损坏机械臂。

刚才我把过去发布的几款机器人做了介绍。接下来讲讲我们层次化的机器人，我们感兴趣的是智能化的机器人，它可以适应不同的环境，在不确定性很大的情况下，能够自动调整和规划系统。自动化有两个自主，一类是反应式自主，就是在意想不到的情况下，能够很快适应变化，比如说被人家踢了一脚，或人走路被路上小石头绊了一下，都可以很快恢复。二是有意识的自主，比如要去开门，或者从讲台上走下来。

如何实现这两类自主，传统的控制方式就是感知、规划、行动。但是这个传统的范式是无法适应反应式自主的，因为从感知上升到规划花费太多时间了。我提出了一个新的范式叫 SLAP，Sensing、Learning、Action、Planning，感知和行动是紧密相连的，只有感知和行动紧密相连才可以实现反应式自主。对于有意识的自主，可以上升到规划层面。学习要渗透到各个模块。

这个范式和人类的认知系统相比，有相当大的一致性。人类感知是系统 1 和系统 2 的结合。反应式自主对应系统 1，只有在面对很艰难的问题的时候才上升到有意识的自主去思考，因为这些是比较慢的思考，消耗比较大的能量。

我们智能机器人控制就仿照层次化的控制，我们人类有小脑，大脑也有系统 1 和系统 2。我们现在是分成三层来控制，第一层是最基本的控制，是对自身状态的估计，proprioception，和要做出一些控制行动。第二部分是对环境的感知，exteroception，让机器人实现对不同环境的控制智能。最后是对任务的感知，然后从上到下，渗透到下面。这个跟大家主流的端到端控制是不一样的，我们的解决思路是层次化的，我会讲层次化的方式有什么好处。