郑南宁院士、高文院士走进腾讯，共探AI与机器人技术新发展

最新推荐文章于 2025-04-28 22:01:42 发布

腾讯AI实验室

最新推荐文章于 2025-04-28 22:01:42 发布

阅读量649

点赞数

文章标签：人工智能机器人百度

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTg4MjEwNw==&mid=2247486530&idx=1&sn=b168754ef54a0a9071a70259dcc06336&chksm=e817dccc5043495ff8dda6a1c8aa4b11ae5179ccb2c054d2d4e65a60f9db1a38940c36bdf780&scene=126&sessionid=0

版权

感谢阅读腾讯 AI Lab 微信号第 182 篇文章。本文介绍中国工程院院士郑南宁、高文走进腾讯，与腾讯首席科学家、腾讯 AI Lab 及 Robotics X 实验室主任张正友共同探讨对 AI 与机器人的前沿思考与洞察。

春和景明之时，腾讯 AI Lab 和 Robotic X 实验室迎来两位特殊的客人——中国工程院院士郑南宁、高文。他们分别带来主题为《常识推理与视觉概念学习》、《中国算力网与鹏城脑海大模型》的报告，并对腾讯 AI Lab 和 Robotics X 实验室工作进行指导，分享前沿的思考与洞察。

郑南宁是中国工程院院士，西安交通大学原校长、教授，人工智能与机器人研究所所长，人机混合增强智能全国重点实验室主任，视觉信息与应用国家工程研究中心理事长，IEEE Fellow，中国人工智能产业发展联盟常务副理事长，中国人工智能教育联席会理事长。

在以《常识推理与视觉概念学习》为主题的报告中，郑南宁院士表示，当前人工智能正处在深刻变化的时代，特别是生成式 AI 和大模型带来了前所未有的体验，对于大家追求的目标——「如何使机器像人类一样思考和行动」而言，大模型开启了新的研究机遇，这一机遇的核心在于大模型与人类认识世界的模型相互对齐。

他从计算机视觉领域展开，首先介绍了对象属性与常识推理这一对「双胞胎」。针对机器来说，识别现实世界中一种物体属性对其实现常识推理有帮助，以及对实现基于直觉的推理而不是符号的表征推理也有重要意义。

他提到，场景描述对理解智能行为的意义同样至关重要。如何准确表征智能体行为并迁移至其他类似智能体甚至无关的智能体，是需要深入研究的课题。表征机器行为需要对智能体所处场景的准确描述，比如有一个机器人要在该场景中完成一个任务，此时这个智能体所处场景的描述实际上和它的机器行为是密切关联的。

具体到实际的技术上，如何实现一种视觉概念属性零样本组合学习？让机器从见过的向未见过的物体进行迁移，并且这些未见过的物体并不在训练集中。他提出，首先是研究清楚场景中的视觉物理的属性、对象概念、心理语言之间的相互作用机理；其次，要了解记忆与视觉构建的心理语言之间的作用机理；最后，还要研究心理语言对视觉理解与推理的作用机制。

在视觉概念学习方面，郑南宁院士介绍了团队在去年提出的一种 VCT（视觉概念标记化）方法，这是一种无监督的 Transformer 视觉概念自编码器，用于视觉概念的表征。在多个数据集上的实验表明，VCT 具有良好的效果。例如，在 Shapes3D 和 Objects-Room 数据集中，团队交换了地面与角度、背景与大小等概念，展示了 VCT 在概念交换上的能力。

此外，VCT 还可用于生成符合真实场景规律的图像，这在建立仿真或注入式仿真系统中非常有用。在 MSCOCO 和 KITTI 数据集上的实验也证明了其有效性。对于自动驾驶等应用，VCT 可以生成大量视觉概念标记，用于训练无人驾驶系统在真实场景中未曾遇到但合理的交通场景。

他提到，无人驾驶需像人一样理解和记忆交通情境，具备记忆、学习与推理机制，以应对复杂多变的交通场景。环境信息处理包括选择、组织、学习和编码四阶段，模拟人类的注意力机制和记忆过程。郑南宁院士团队开发的知觉物体方法简化了场景描述，降低了计算复杂度，还研究了基于课程残差分层强化学习的自进化自动驾驶。

高文是中国工程院院士，鹏城实验室主任，北京大学信息与工程科学部主任、博雅讲席教授，国际电气和电子工程师协会会士（IEEE Fellow）、美国计算机协会会士（ACＭ Fellow）。现任第十四届全国人大代表，曾任第十届、十一届、十二届全国政协委员，国家自然科学基金委副主任，中国计算机学会理事长，计算机学报主编等。

高文院士在主讲题为《中国算力网与鹏城脑海大模型》的报告时表示，「算力网」是类比电力网的概念，旨在实现算力的跨域便捷调度、获取与使用。当前，算力的重要性已被广泛认可，对经济发展和社会进步产生重要作用；同时，算力正在改变科学研究的范式，成为科学研究的新手段。他指出，常规的科学研究主要有三种范式，一是基于实验的范式，二是基于理论推导的范式，三是基于计算机模拟的范式；后来随着人工智能的发展，出现了第四种范式——基于大规模数据计算的范式，第三范式开始超算是主要装置，第四范式兴起后需要同时处理大量的数据，从数据中归集大量内容，以往的超算已经无法满足，需要专门针对人工智能的超级算力作为主要装置，即智算。

高文院士提到，我国在超算领域已取得了长足进步；在智能算力的发展速度同样迅猛，国内多个大型互联网企业在算力基础设施建设上投入巨大，为人工智能的发展提供了坚实基础。目前，算力已成为我国人工智能发展的重要支撑，优化算力布局、提升算力水平是当前的重要任务。

从国家规划来看，2022 年是我国「东数西算」工程元年。考虑到我国西部电力物美价廉，东部算力应用比较发达，国家计划把计算需要的装备放置在西部，用西部的电力来支撑完成计算，并把计算结果回传到东部落地应用。

「要做‘中国算力网’，愿景就是要像建设电网一样建设国家‘算力网’，像运营互联网一样运营‘算力网’，要让用户像用电一样方便地使用‘算力’」，高文院士说。

除了推进‘中国算力网’的研发与建设，高文院士近期的一大工作是持续开发、训练、推广「鹏城·脑海」大模型。作为基于「鹏城云脑II」国产自主人工智能算力平台训练完成的全面自主可控通用AI大模型，「鹏城·脑海」已从去年9月起发布了系列通用 AI 大模型（7B 模型、33B 长窗口大模型、200B 大模型等），并在启智社区开源了国内首个完全自主创新的两千亿参数自然语言预训练大模型底座，大家只要填写预约信息认证通过就可以拿到源码。

高文院士强调，「鹏城·脑海」两千亿参数大模型以中文为核心。他提到，「鹏城·脑海」大模型基于「鹏城云脑II」训练两千亿参数模型大约花了7个月时间，正在研制的下一代「鹏城云脑」设施算力参数将是「鹏城云脑II」的16倍，将发挥提供更强大智算性能。

两位院士的报告分享会结束后，腾讯 AI Lab 和 Robotics X 实验室的几位负责人也分别分享了相应成果与最新研究进展，并与两位院士共同探讨腾讯 AI Lab 和 Robotics X 的研究方向。

腾讯首席科学家、腾讯 AI Lab 及 Robotics X 实验室主任张正友全面介绍了腾讯 AI Lab 和 Robotics X 实验室。张正友博士提出了「ABCDEFG」的机器人发展框架，涵盖了从AI能力到情感理解和灵巧操控的全方位发展。腾讯 AI Lab 的目标是结合基础研究、项目孵化和技术落地，为工业界和学术界做出贡献，而 Robotics X 实验室则专注于推进人机协作的机器人技术，旨在使用机器人增强人的智力、关怀情感、发挥体能潜力。目前，实验室规划了无形态和有形态的 Agent，以及具身智能体机器人，横跨虚拟世界和现实世界，连接人类和机器人。

在机器人技术方面，腾讯 Robotics X 实验室致力于用机器人技术解决社会问题，经过六年技术积累，腾讯 Robotics X 实验室在移动、操作、感知等方面取得进展，研发了具有通用移动能力、操作能力和人机交互能力的机器人。腾讯 Robotics X 实验室近期也发布了五指灵巧手和仿生机械臂的研究成果，并开发了触觉传感器以提高操作成功率。此外，腾讯 Robotics X 实验室还积累了视觉感知能力，使机器人能完成各种操作技能。

具身智能方面，腾讯 Robotics X 实验室主要围绕三个层次的框架展开，最底层是本能层次，通过生成式模型学习动物行为，并应用于机器人控制，使其展现出与动物相似的逼真动作；中间层关注环境处理，使机器人能够完成各种任务；最高层用于策略层面的规划，复用底层和中间层学到的能力。通过这一框架，机器人能够做出灵活、逼真的行为，并具备解决复杂任务的能力，这一框架具有通用性，可以应用于不同类型的机器人。会上，研究员还提到了将多模态大语言模型与视觉能力结合的可能性，展示了机器人在借助大模型听懂人类指令并完成相应任务方面的潜力。

音频语音处理方面，腾讯 AI Lab 的研究进展主要包括语音编解码 AI Codec、回声与降噪一体化模型、音乐分离技术、波束形成算法以及音幕技术等。这些技术已经成功应用于腾讯会议、游戏、直播等多个场景，有效提升了音质、降低带宽成本。此外，腾讯 AI Lab 还研究了基于全链路神经网络的音效生成和音频编辑技术，实现单一声学内容生成和复杂文本转音效，以及语音内容、信号和音频的编辑。

自演进认知大模型上，腾讯 AI Lab 提出的模型整体架构包括复杂推理、记忆和主动学习模块，并采用了高效的搜索算法等大模型技术。团队还引入了编程语言作为复杂推理的内核，以实现循环推理，并展示了在 Strategy QA 和 Web Shop 等场景中的应用。

会上，腾讯 AI Lab 也展示了多模态驱动的虚拟人技术，通过语音编码和情感、个性标签预测，结合 MH 控制器和表情生成，实现自然的动画表现。基于 Locomotion 技术的 Agent 动作生成技术，可自动化生成不同风格的步态和动作，大幅降低成本，团队还研发了人格化 Agent 的 PaaS 平台，应用于游戏、电竞直播等领域。此外，腾讯 AI Lab 还展示利用大模型进行虚拟人解说和对话的功能，并介绍了 AIGC 在游戏制作中的应用，包括从剧本到动画的一站式生成。在声音效果 TTS 方面的进展，腾讯 AI Lab 通过 Zeroshot 音色复制技术，可轻松复刻声音。

生命科学领域。随着基因测序技术的快速发展，研究员正在利用人工智能技术，如自监督学习、大模型技术和图神经网络等，来处理和分析庞大的基因数据。腾讯 AI Lab 还提出了多个创新模型，包括用于单细胞基因数据分析的 scBert，用于单细胞蛋白组学研究 SCProtein 以及用于空间组学数据处理的 Spatial-ID，以及用于抗体和复合体结构预测的 tFold-Ag 等。此外，腾讯 AI Lab 还开发了通用蛋白质生成大模型，以设计具有更强功能的蛋白质。腾讯 AI Lab 不仅在学术上取得了突破，还开发了医疗影像 AI 诊断算法、智能显微镜、神经外科手术导航系统和人工智能药物研发平台等落地应用。

针对以上研究和探索的方向，两位院士均给出较为详细的指导，并指出，腾讯 AI 和机器人研究做得扎实，期待未来能有更多成果出现。作为腾讯企业级实验室，腾讯 AI Lab 和 Robotics X 实验室接下来也会继续推进下一代机器人研究，坚持学术有影响，工业有产出，推进人机协作，迎接人机共生、共存、共赢的未来。