感谢阅读腾讯 AI Lab 微信号第 184 篇文章。本文介绍腾讯首席科学家张正友在 2024 年中国三维视觉大会(China3DV 2024)上的主题演讲内容,分享了腾讯 AI Lab 和腾讯 Robotics X 数字人技术的研究与应用工作。
近日,腾讯首席科学家张正友在 2024 年中国三维视觉大会(China3DV 2024)上发表主题演讲,分享了腾讯 AI Lab 和腾讯 Robotics X 数字人技术的研究与应用工作。张正友表示,数字人是虚实集成世界的具身智能体,尤其近年来多模态大模型和混合现实设备的快速发展,推动数字人完成更多的数字任务,成为日益重要的智能体。
2024 年中国三维视觉大会(China3DV 2024)由中国图象图形学学会(CSIG)主办,CSIG 三维视觉专委会和哈尔滨工业大学(深圳)承办,旨在探讨三维视觉领域的最新技术和发展趋势。
以下为现场演讲实录:
技术趋势
张正友:非常感谢会议组织者的邀请,我今天的报告题目是《数字人:虚实集成世界的具身智能》。
先讲技术的发展第一个趋势是技术的平民化。从人机交互的角度去,早期的大型主机,只有少数懂得机器语言或汇编语言的人才能与计算机交互。到PC时代,编程语言的多样化让更多人能够与电脑交互。移动设备的出现,尤其是大语言模型的出现,现在可以用自然语言和计算机交互了,这进一步推动了技术的平民化。下一步我认为是MR、AR(混合现实、增强现实)技术的发展,让人能够通过五官感受,以多模态的方式交互。再往前进入AGI(通用人工智能),几乎所有人类都可以和机器交互。
第二个趋势是虚实集成世界。未来,数字世界跟真实世界是紧密结合的,我叫它虚实集成世界。现在,像苹果公司的 Vision Pro 头显可以做到空间计算,技术会更进一步发展,将对世界建模,实现世界计算,从而让数字人达到真正的智能。
第三个趋势是大规模 AI 系统。第一代大规模 AI 系统是搜索引擎,我们提出一些查询(query),AI 系统检索相关链接,人再筛选链接,此时的 AI 还是一个非常被动的形态。第二代就是我们目前经历的生成式 AI。它仍然需要被提问,但人可以是很自然地问,AI 给你一个生成式的结果,可能是以文本或者图像、视频、语音等模态的方式给你一个回答。如果觉得答案不好,我们还可以继续问 AI。从这个角度看,生成式 AI 仍然是被动的系统。
下一代我认为会是交互式 AI,人和 AI 通过文本、视觉、语音、动作进行多模态交互,AI 感知环境进行行动。交互式AI就成为了 Agent(智能体),能够帮助我们完成任务,而不只是给我们一个回答,人只需要监督或者评估它完成任务的效果。
智能体有三种可能的形态,第一种形态是软件或者叫 Bot,它能够完成一些数字任务。第二种是虚拟 Agent,有形象的就是虚拟人,也是完成数字任务。第三种是实体 Agent,能够帮助我们完成物理任务。因此,具身智能体既可以是在数字世界的数字人,也可以在是物理世界里的机器人。
在这张 AI Agent 的全景图里,左边是虚拟世界,绿色模块展示了虚拟人的大脑如何完成一项任务,它具备计划策略、多模态理解生成、人格化、与环境交互等能力,并且通过自演进,不断提升这些能力。右边则是现实世界,其中有人类也有物理的机器人,大脑的能力是类似的,区别在于人和机器人要在真实世界里行动。
所以,将来人和虚实集成世界的所有互动都将由 AI Agents 促成,并将被记住。
虚实集成世界
虚实集成世界是技术发展到一定程度的自然结果,这些技术包括:现实虚拟化、虚拟真实化、全息互联网和智能执行体,也就是虚拟人或者机器人。它们能够穿梭在数字世界和真实世界之间,让两个世界更紧密地结合。这其中也势必包括人与虚实集成世界的交互。
人和虚实集成世界的交互由三个「I」组成,第一个「I」是沉浸式内容(Immersive Content),比如 3D 的空间、音效、触觉、嗅觉等;第二个「I」是互操作(Interoperability),我们在虚实集成世界的行动要想畅通无阻,可能需要一个协议,就像去不同国家需要护照一样。第三个「I」就是交互(Interaction)。
交互其实是一个回路。用户通过感知界面比如 AR 眼镜去感知虚实集成世界,同时通过驱动界面比如 Cyber Glove 手套去行动,改变世界。未来,交互将由 AI Agent 促成,通过多模态的方式进行,比如语音、视觉、显示、触觉、肌电图等模态。
虚实集成世界里面是非常复杂的,除了人,还有物体、智能体、环境、分身等等。因此智能数字人必须具备三大特征,才能避免交互多样化可能导致的失控。其一是人格化,像人一样的感性、理性和灵性等。其二是知识化,否则我们很快就会失去兴趣。其三是个性化,就像我们每个人都有独特个性,这才是一个丰富多彩的世界。
智能数字人
下面就进入到第三部分,介绍我们在智能数字人方面的一些工作,包括生成和重建、多模态 AI 驱动、大语言模型对话和一些落地的应用。
数字人生成和重建
我们的数字人包括 3D 写实数字人、3D 卡通数字人、2D 真人数字人和 NeRF 数字人等类型。为了制作 3D 写实风格数字人,我们建立了一套分级制作技术方案,分为 S 级、A 级、B 级、C 级四档。
S 级数字人 · 传统扫描建模
S 级数字人是用光场摄影棚扫描制作,质量最高,AI 技术进行流程加速和成本优化。
A 级数字人 · AI 建模管线
A 级相对 S 级稍微简单一点,用摄像机阵列拍摄真人,AI 结合轻量人工加工即可生成。
B/C 级数字人 · 消费级设备 30 秒生成
用我们日常手机设备拍一张照片或者一个视频,就能得到一个 B/C 级数字人,不需要做任何的人工操作,唇纹、皮肤毛孔等还是有比较真实的效果。
除了拍摄制作 3D 数字人,我们还可以用 NeRF 技术来表达数字人。目前我们有一些技术的进展,包括高保真、可驱动的人脸建模;灵活、多功能、可交互的 3D 人脸图片编辑;以及 4D 人脸编辑等。
交互式3D人脸编辑技术
神经辐射场的4D人脸编辑
数字人多模态AI驱动
生成数字人以后,我们需要驱动它,比如各种各样的表情驱动,以及多语种的驱动等。
这是我们多模态驱动的方案:首先是采集数据,头盔能够比较精准地采集到人的表情嘴唇等动作。数据采集好以后,通过音频编码器、情感编码器、个性编码器,多路输入到一个多模态的神经网络里面,做一些后处理,然后就可以根据文本信息、语音信息来驱动一个数字人。
数字人如果放到手机上,可能就驱动不了,因为表达太复杂。我们通过一些压缩的方法,让整个驱动的参数更少,而效果几乎没有什么损失。通过大量的数据压缩,就可以把系统放到手机上了。
Audio2Gesture 效果展示
刚才主要讲了人脸表情驱动,Audio2Gesture 则是对人体动作的驱动,因为语言必须肢体动作相结合。可以看到同一个语言可以生成不同的动作,同时保持全局和局部运动的一致性。
还有 AI Locomotion 人体驱动。比如在游戏里,传统状态机的方式导致角色的动作非常生硬。AI Locomition 不仅可以生成非常自然的运动轨迹,它还支持生成不同风格,并且适配不同的地形。
很多动作不能靠动捕实现,尤其是物理世界不存在的一些东西。我们可以让美术设计少量的高质量的动作,再让 AI 很快地泛化到其他动作上面,也就是基于样例的多样化动作生成,输入样例的动作,类似于 skleton(骨骼),就可以生成虚拟人的动作。
基于样例的多样化动作生成效果
智能 Agent LLM 对话
最近几年 Large Language Model(大语言模型)的出现,让智能体变得更智能,虚拟人真正有了灵魂。这里面包括个性化、自我管理、社会意识、关系管理等,让数字人智能体有了更多应用的场景,比如游戏电竞解说、视频制作等等。
AI仿真双人实时解说电竞比赛《和平精英》
落地应用
《和平精英》吉莉导览腾讯 AIR² 展厅
第一个应用案例是数字人导览,我们基于《和平精英》吉莉人设对话风格,让她以导览员身份,围绕展厅内容为参观者介绍 AIR² 展厅。
我们还搭建起一个「视频工厂」平台。能够输入一些场景任务设定,自动生成剧本,然后让数字人演绎出来。
机器狗&数字狗虚实集成
我们的数字人技术也已应用于游戏动画生产、机器人仿真训练等。机器人在虚拟世界学习各种能力,比如摔倒以后能够站起来继续前进等,降低在真实世界训练产生的损耗。
时间关系就讲到这里,谢谢大家。
* 欢迎转载,请注明来自腾讯 AI Lab 微信(tencent_ailab)