5G 时代，从视频互动特效技术看未来趋势-CSDN博客

疫情期带来了在线娱乐行业的爆棚式发展，也让行业本身更加审视在交互体验上的突破价值。优酷团队开始了对互动视频体验的全新升级，升级集中体现在三个方面：直播化、游戏化、特效化。

本文根据阿里巴巴的资深算法专家李静，在云栖大会的《5G 时代，优酷新型视频互动特效技术实践》的演讲整理而成，为大家分享优酷在互动视频领域的创新技术。

视频形态的发展历史

提到新型的视频互动特效技术，有必要先讲一下视频形态的发展历史。最开始我们看的都是 2D 普通视频，随着人们对真实世界虚拟化的极致追求，出现了阿凡达这样的 3D 电影。在这种视频形态下，人们更加的希望去了解虚拟世界，达到沉浸式的观看体验。随着 AI 技术的快速发展，我们可以抛开这种视频形态，在 2D、3D、360 甚至 FVV 上实现互动式的体验。

视频的互动能力是从何而来呢？

视频的互动能力最开始来自于弹幕点赞评论，这种信息量是来自视频之外的 UGC 文本去丰富视频本身。虽然这种传统的互动模式比较简单，但有非常好的互动效果。

另外一种互动形式来自于时间轴，比如在互动剧中对分支剧情进行选择。另外一种方式是来自于空间域，比如进行多机位的拍摄，观看的用户可以选择观看比较感兴趣的机位。这两种形式都是针对原始内容获取，提供更加个性化的观影体验。除此之外，还有信息量来自 2D 到 3D 的转变，在 VR/AR、全息和 360° 视频形态中，以 3D 交互去构筑新的观影行为，比如 6DoF 视频。

自由视点视频互动直播化

自由视点互动视频即基于 DIBR 重建技术，让用户在自由的视角进行任意的观看，实现自由视点互动直播化。

《这！就是街舞 3》第 7 期

DIBR（Depth Image Based Rendering）重建技术是基于多机位生成的纹理图像，然后进行深度重建，基于深度图以及几何关系，最后对虚拟试点进行重建。这个技术最关键的点是深度图是否准确。基于传统方案的深度估计，有两个难解决的问题，第一耗时，第二时域不稳定。比如下方的例子，由于深度估计不准或者遮挡的原因导致水面在重建的时候会出现一些黑洞。

这是 FVV 视频，也是自由视点视频重建的最大难点之一。如何解决这个问题呢？在今年的升级中，我们提出了新的算法模型，对深度估计的算法进行提速和精细化的重建。

如何提速，这方面我们采用了基于深度学习的方案。由于深度学习在做 Influence 的时候，速度非常快，所以基本可以满足实时化的需求。但深度学习需要依赖大量的数据去训练，然后才能得到一个模型。因此这种模型有很大的泛化性问题，当它迁移到另外一个场景进行预测的时候，效果就会不太好。

我们在最新的方案中提出了一种基于有监督和无监督的融合方案，利用大量的无标签数据进行无监督的训练，利用神经网络去学习几何关系。最终希望它可以适应各种场景，去解决泛化性的问题。在一些特定场景中，利用少量的有标签的数据去进行有标签的有监督的训练。

这样针对于特定场景，我们可以解决精度的问题，如 Demo 显示，在新方案中水面重建的区域效果更好，时域性稳定性更高。

《这！就是街舞 3》第 7 期新方案 VS 传统方案

体感互动技术赋能视频游戏化

当我们聊到人脸互动技术时，大家首先想到的就是美妆、美颜、贴纸等功能，这也是日常生活中必不可少的拍照工具。在这次的街舞 AI 挑战赛上，优酷同样采用了人脸关键点技术实现人脸互动。

街舞 AI 挑战赛（人脸互动 1.0）

我把这种技术称为人脸互动的 1.0 时代。在人脸互动 2.0 时代，更希望不只是依靠人脸关键点的检测技术，更要对表情进行识别。比如现在非常火热的虚拟主播场景，利用表情驱动虚拟主播，让虚拟形象也可以去做带货直播。

虚拟主播表情驱动，优酷动漫《芯觉》主角江心

除此以外，在阿里巴巴的云游戏上也可以利用表情去进行体感控制，达到不同的游戏效果。

表情类体感控制阿里巴巴云游戏

除人脸互动技术外，优酷还有一套体系化的动捕设备，可实现实时数据采集、模型驱动、云端特效制作及呈现。比如利用 iPhone 摄像头或者网络摄像头，将拍摄到的数据上传到云或端侧直接处理，利用 3D Pose 估计技术以及渲染的效果，最终下发到用户。不论端上或者 PC 机上，可实现直播、录播、准实时互动，满足不同的业务应用场景。

这套动捕系统非常典型的应用场景是虚拟形象驱动，其最关键的技术是人体姿态估计的准确度。如果人体姿态估计的不够准确，那虚拟形象可能会出现抖动，动作不到位，或者是在地面上飘。针对这种问题，我们采用了二阶段的训练去输出 3D 骨骼关键点，融入时序权重，以及加入动作鉴别器，在丰富的自有数据库上进行训练，最后达到 3D Pose 估计准确和平滑的结果。

街舞选手电门 vs 虚拟形象《芯觉》江心

除此以外，我们还利用 CG 驱动引擎，自适应动画曲线生成，以及 IK 使动作没有违和，具备有律动感。虚拟形象驱动技术也应用在优酷即将播出的动漫《芯觉》上，实现用户和 IP 互动，增加用户的粘性。

综艺体育与 AR 特效融合引领新体验

目前的综艺节目基本上都包含有特效，如果特效做的好，综艺也会非常有亮点。但是综艺特效制作的最大问题就是非常耗时耗人力。我们想要实现的是让 AI 去发现标注和凸显综艺节目的精彩时刻，通过 AI 实现综艺特效的批量化和自动化生产。

《这！就是街舞 3》片段

比如上面视频所示，优酷利用 CG 技术产生了 30 多种特效类型，帮助短视频生产提供更好的用户体验。除了 CG 特效以外，还需要 CV 技术作为支撑。CV 技术可以进行动作的检测、动作幅度的检测、动作范围检测、明星识别和 BGM。这些技术帮助我们更好的去发现特效的点位。

动作检测，我们采用传统的方法结合人体关键点技术，可以更准确的识别舞蹈动作。对于动作的幅度检测，通过人体关键点的运动轨迹并结合曲线美感度评价算法，使舞蹈动作的曲线更优美，产生更好的视觉效果。最后利用多特征的融合策略，自动匹配选择和组合特效，支持特效的批量生产和分发。

AR 特效应用于体育赛事场景可以让观众实时了解赛事情况。比如下面两个展示投篮热区图和铭牌与阵型的视频，观众可以实时看到当前谁在投篮，他的命中率是多少，以及当前的阵型是什么样的。

投篮热区图

铭牌与阵型

对于这种特效来说，第一个要解决的问题就是三维场地标定。在三维场地标定的过程中，由于球框或者球员的遮挡，会导致标定难以进行，所以优酷利用深度图解决篮框遮挡问题，利用人体姿态估计与分割技术解决人体遮挡的问题，最后根据虚拟试点相机的姿态进行热力图的渲染。

以下两个视频展示渲染的结果，可以发现最后三维场地标定的结果是非常准确的。

对于 AR 特效植入，例如铭牌组建这样的特效，有 4 个比较关键的 CV 技术点。第一需要对球员进行实时的识别和跟踪，其次需要对篮球进行识别，也需要对球员的手和脚进行识别定位，最后对人体进行三维建模，进行高度计算。在 2020 年 CBA 直播，优酷的云特效引擎牵手 CBA 直播，实现了现场实时的直播输出。