腾讯首席科学家张正友China3DV演讲:数字人是虚实集成世界的具身智能体

腾讯首席科学家张正友在中国三维视觉大会上阐述了数字人技术的发展趋势,包括技术平民化、虚实集成世界和大规模AI系统。他强调了数字人在多模态交互、虚实融合及AI驱动下的重要性,以及腾讯在数字人生成、重建和应用方面的成果。
摘要由CSDN通过智能技术生成

感谢阅读腾讯 AI Lab 微信号第 184 篇文章。本文介绍腾讯首席科学家张正友在 2024 年中国三维视觉大会(China3DV 2024)上的主题演讲内容,分享了腾讯 AI Lab 和腾讯 Robotics X 数字人技术的研究与应用工作。

近日,腾讯首席科学家张正友在 2024 年中国三维视觉大会(China3DV 2024)上发表主题演讲,分享了腾讯 AI Lab 和腾讯 Robotics X 数字人技术的研究与应用工作。张正友表示,数字人是虚实集成世界的具身智能体,尤其近年来多模态大模型和混合现实设备的快速发展,推动数字人完成更多的数字任务,成为日益重要的智能体。

3bac50fd0ae7b8bc20d0e043855f9ff8.jpeg

2024 年中国三维视觉大会(China3DV 2024)由中国图象图形学学会(CSIG)主办,CSIG 三维视觉专委会和哈尔滨工业大学(深圳)承办,旨在探讨三维视觉领域的最新技术和发展趋势。

以下为现场演讲实录:

技术趋势

张正友:非常感谢会议组织者的邀请,我今天的报告题目是《数字人:虚实集成世界的具身智能》。

先讲技术的发展第一个趋势是技术的平民化。从人机交互的角度去,早期的大型主机,只有少数懂得机器语言或汇编语言的人才能与计算机交互。到PC时代,编程语言的多样化让更多人能够与电脑交互。移动设备的出现,尤其是大语言模型的出现,现在可以用自然语言和计算机交互了,这进一步推动了技术的平民化。下一步我认为是MR、AR(混合现实、增强现实)技术的发展,让人能够通过五官感受,以多模态的方式交互。再往前进入AGI(通用人工智能),几乎所有人类都可以和机器交互。

8932b92a04ac0cfc4b88d4859261645a.jpeg

第二个趋势是虚实集成世界。未来,数字世界跟真实世界是紧密结合的,我叫它虚实集成世界。现在,像苹果公司的 Vision Pro 头显可以做到空间计算,技术会更进一步发展,将对世界建模,实现世界计算,从而让数字人达到真正的智能。

ef50699440acd27d127f9f21c003f319.jpeg

第三个趋势是大规模 AI 系统。第一代大规模 AI 系统是搜索引擎,我们提出一些查询(query),AI 系统检索相关链接,人再筛选链接,此时的 AI 还是一个非常被动的形态。第二代就是我们目前经历的生成式 AI。它仍然需要被提问,但人可以是很自然地问,AI 给你一个生成式的结果,可能是以文本或者图像、视频、语音等模态的方式给你一个回答。如果觉得答案不好,我们还可以继续问 AI。从这个角度看,生成式 AI 仍然是被动的系统。

e29a1d858cceff2dfbbb8f1d2c463c4b.jpeg

下一代我认为会是交互式 AI,人和 AI 通过文本、视觉、语音、动作进行多模态交互,AI 感知环境进行行动。交互式AI就成为了 Agent(智能体),能够帮助我们完成任务,而不只是给我们一个回答,人只需要监督或者评估它完成任务的效果。

817d5d94338ed2ca3b84c1cfc19b8823.jpeg

智能体有三种可能的形态,第一种形态是软件或者叫 Bot,它能够完成一些数字任务。第二种是虚拟 Agent,有形象的就是虚拟人,也是完成数字任务。第三种是实体 Agent,能够帮助我们完成物理任务。因此,具身智能体既可以是在数字世界的数字人,也可以在是物理世界里的机器人。

a4fde0ffde122a4262371ca185b127bf.png

在这张 AI Agent 的全景图里,左边是虚拟世界,绿色模块展示了虚拟人的大脑如何完成一项任务,它具备计划策略、多模态理解生成、人格化、与环境交互等能力,并且通过自演进,不断提升这些能力。右边则是现实世界,其中有人类也有物理的机器人,大脑的能力是类似的,区别在于人和机器人要在真实世界里行动。

所以,将来人和虚实集成世界的所有互动都将由 AI Agents 促成,并将被记住。

虚实集成世界

e22ecf33ffb3e31081d48641940215eb.png

虚实集成世界是技术发展到一定程度的自然结果,这些技术包括:现实虚拟化、虚拟真实化、全息互联网和智能执行体,也就是虚拟人或者机器人。它们能够穿梭在数字世界和真实世界之间,让两个世界更紧密地结合。这其中也势必包括人与虚实集成世界的交互。

106e9d70735d13228fb5ecb4c101e48f.png

人和虚实集成世界的交互由三个「I」组成,第一个「I」是沉浸式内容(Immersive Content),比如 3D 的空间、音效、触觉、嗅觉等;第二个「I」是互操作(Interoperability),我们在虚实集成世界的行动要想畅通无阻,可能需要一个协议,就像去不同国家需要护照一样。第三个「I」就是交互(Interaction)。

f2b5d61af071483fdae0012f6c0337ec.png

交互其实是一个回路。用户通过感知界面比如 AR 眼镜去感知虚实集成世界,同时通过驱动界面比如 Cyber Glove 手套去行动,改变世界。未来,交互将由 AI Agent 促成,通过多模态的方式进行,比如语音、视觉、显示、触觉、肌电图等模态。

8b4e24dcb663298b379becd6757f4ff0.png

虚实集成世界里面是非常复杂的,除了人,还有物体、智能体、环境、分身等等。因此智能数字人必须具备三大特征,才能避免交互多样化可能导致的失控。其一是人格化,像人一样的感性、理性和灵性等。其二是知识化,否则我们很快就会失去兴趣。其三是个性化,就像我们每个人都有独特个性,这才是一个丰富多彩的世界。

智能数字人

下面就进入到第三部分,介绍我们在智能数字人方面的一些工作,包括生成和重建、多模态 AI 驱动、大语言模型对话和一些落地的应用。

数字人生成和重建

ae1001d2aa75b988b7b3219c65308a49.png

我们的数字人包括 3D 写实数字人、3D 卡通数字人、2D 真人数字人和 NeRF 数字人等类型。为了制作 3D 写实风格数字人,我们建立了一套分级制作技术方案,分为 S 级、A 级、B 级、C 级四档。

S 级数字人 · 传统扫描建模 

S 级数字人是用光场摄影棚扫描制作,质量最高,AI 技术进行流程加速和成本优化。

efab3b7c3733411bfcea5fc67598d6e2.png

A 级数字人 · AI 建模管线 

A 级相对 S 级稍微简单一点,用摄像机阵列拍摄真人,AI 结合轻量人工加工即可生成。

ae71b39775b0a9d9741bda5b39e9a096.png

B/C 级数字人 · 消费级设备 30 秒生成 

用我们日常手机设备拍一张照片或者一个视频,就能得到一个 B/C 级数字人,不需要做任何的人工操作,唇纹、皮肤毛孔等还是有比较真实的效果。

8823190a8e75bbec25617ce202d21dce.jpeg

除了拍摄制作 3D 数字人,我们还可以用 NeRF 技术来表达数字人。目前我们有一些技术的进展,包括高保真、可驱动的人脸建模;灵活、多功能、可交互的 3D 人脸图片编辑;以及 4D 人脸编辑等。

交互式3D人脸编辑技术

神经辐射场的4D人脸编辑

数字人多模态AI驱动

生成数字人以后,我们需要驱动它,比如各种各样的表情驱动,以及多语种的驱动等。

b54c90d2e6db7795108044cf919c1261.jpeg

这是我们多模态驱动的方案:首先是采集数据,头盔能够比较精准地采集到人的表情嘴唇等动作。数据采集好以后,通过音频编码器、情感编码器、个性编码器,多路输入到一个多模态的神经网络里面,做一些后处理,然后就可以根据文本信息、语音信息来驱动一个数字人。

6b09a4d3448d118cd72f2377d935ed6b.jpeg

数字人如果放到手机上,可能就驱动不了,因为表达太复杂。我们通过一些压缩的方法,让整个驱动的参数更少,而效果几乎没有什么损失。通过大量的数据压缩,就可以把系统放到手机上了。

Audio2Gesture 效果展示

刚才主要讲了人脸表情驱动,Audio2Gesture 则是对人体动作的驱动,因为语言必须肢体动作相结合。可以看到同一个语言可以生成不同的动作,同时保持全局和局部运动的一致性。

d4becd564ec852429e49de1c5a719d04.jpeg

还有 AI Locomotion 人体驱动。比如在游戏里,传统状态机的方式导致角色的动作非常生硬。AI Locomition 不仅可以生成非常自然的运动轨迹,它还支持生成不同风格,并且适配不同的地形。

8f6a4b643ba7f5a1cd139ec97575e7b2.jpeg

很多动作不能靠动捕实现,尤其是物理世界不存在的一些东西。我们可以让美术设计少量的高质量的动作,再让 AI 很快地泛化到其他动作上面,也就是基于样例的多样化动作生成,输入样例的动作,类似于 skleton(骨骼),就可以生成虚拟人的动作。

基于样例的多样化动作生成效果

智能 Agent LLM 对话

c4773f6aeff56bce74d78c01d83b7255.jpeg

最近几年 Large Language Model(大语言模型)的出现,让智能体变得更智能,虚拟人真正有了灵魂。这里面包括个性化、自我管理、社会意识、关系管理等,让数字人智能体有了更多应用的场景,比如游戏电竞解说、视频制作等等。

AI仿真双人实时解说电竞比赛《和平精英》

落地应用

26e395cca5b5c2049c866b93f451a7ef.png

《和平精英》吉莉导览腾讯 AIR² 展厅

第一个应用案例是数字人导览,我们基于《和平精英》吉莉人设对话风格,让她以导览员身份,围绕展厅内容为参观者介绍 AIR² 展厅。

3cd5459cf294c5e110ed12068943c9a3.jpeg

我们还搭建起一个「视频工厂」平台。能够输入一些场景任务设定,自动生成剧本,然后让数字人演绎出来。

机器狗&数字狗虚实集成

我们的数字人技术也已应用于游戏动画生产、机器人仿真训练等。机器人在虚拟世界学习各种能力,比如摔倒以后能够站起来继续前进等,降低在真实世界训练产生的损耗。

时间关系就讲到这里,谢谢大家。

0f151060b759c704b017cde495d2e8cb.jpeg

* 欢迎转载,请注明来自腾讯 AI Lab 微信(tencent_ailab)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值