国产视频生成大模型大爆发！三分钟AI短剧批量上线

最新推荐文章于 2024-09-13 20:40:11 发布

yxiaoyu__

最新推荐文章于 2024-09-13 20:40:11 发布

阅读量1.7k

点赞数 28

文章标签：音视频人工智能 ai 大模型

本文链接：https://blog.csdn.net/yXIAOyu_/article/details/141034774

版权

巴黎奥运会如火如荼地进行着，视频生成大模型的赛场同样热闹，国内多位“参赛选手”纷纷亮相，只为争夺名为“中国版Sora”的金牌。

在刚刚过去的七月，生数科技打造的视频大模型Vidu上线，面向用户开放文生视频和图生视频两大功能；智谱AI正式发布视频生成大模型“清影”；商汤发布首个面向C端用户的可控人物视频生成大模型Vimi；阿里达摩院推出一站式AI视频创作平台“寻光”；快手可灵AI正式上线网页端，并开源名为LivePortrait的可控人像视频生成框架……

AI视频大模型令人惊叹的“增速”，不仅在资本市场炙手可热，更带给影视行业不小的冲击，尤其是当抖音、快手以及央视推出AI制作的短剧后，演员和编剧也开始面临“失业危机”。

不过，科技产品从实验室走向市场，能力至关重要。AI视频大模型能否高质量实现生成内容的连贯性和一致性，才是决定其未来发展的关键。

摸着Sora过河

尽管Sora还没有向公众开放，但提及文生视频，Sora是一个绕不开的话题。

“目前，国产视频生成大模型的技术路径与Sora基本一致，只不过每家都会加入自己的Trick（技巧）。”Logenic AI联合创始人李博杰告诉《IT时报》记者，视频的本质可以看成是多张图片的连续排布放映，在文生图大模型中，最被人们熟知的技术是扩散模型，它可以根据输入的文字描述，获取数据的内在结构和分布规律，从而生成单张图片。

但扩散模型在语义、数据之间的联系存在局限，就需要Transformer模型将不同数据进行互相关联，联想生成大量图片，表达帧与帧之间的关系，最终通过编码器压缩成一条视频。

李博杰表示，目前视频生成大模型的算力可以达到ChatGPT3.5的水平，但还不及ChatGPT4的万卡集群规模，国内许多企业都具备这样的算力。因此在有限的算力下，决定视频质量的关键取决于数据的质量和数量，画面的连贯性也可以通过大量数据训练而实现。

不过，由于关键数据获取难、原始世界数据被越来越多的AI生成内容所“污染”，加上视频数据大多缺乏对应描述性文本或者描述质量低下，国产视频生成大模型开始从模型结构、组件等方面寻求技术突破来保证连贯性。

以智谱清影为例，智谱清影相关负责人周文（化名）告诉《IT时报》记者，为了解决内容连贯性的问题，智谱自研的三维变分自编码器结构（3D VAE）将原视频空间压缩至2%，减少了视频扩散生成模型的训练成本及训练难度。

模型结构方面，将因果三维卷积（Causal 3D convolution）作为主要模型组件，移除自编码器中常用的注意力模块，使得模型具备不同分辨率迁移使用的能力。同时，在时间维度上，因果卷积的形式也使得模型具备视频编解码从前向后的序列独立性，便于通过微调的方式向更高帧率与更长时间泛化。

与传统路径不同的是，智谱清影摒弃了交叉注意力机制（Cross Attention）模块，采用将文本、时间、空间三个维度全部融合起来的Transformer架构，在输入阶段就将文本和视频向量化（Embedding），然后再将不同模态的向量直接连接（Concatenate）起来，形成单一的特征向量，输入到下游任务中。

不过，这两种不同结构的数据特征空间有较大差异，此时就需要通过专家自适应层归一化技术（Expert Adaptive Layernorm）对文本和视频两个模态分别进行处理，利用扩散模型中的时间步信息，实现视觉信息与语义信息的对齐。

一个人拍一部剧成为可能

视频生成大模型的批量上线，最有可能被影响的是影视行业。

“不可否认，视频生成大模型让我们看到了影视发展的新可能。”上海大学温哥华电影学院副院长陈晓达告诉《IT时报》记者，AI生成不仅可以降低影片制作、场景搭建、妆造设计等成本和时间，也降低了入局门槛，一个人就有可能拍摄完一部剧。

6月28日，中央广播电视影视剧纪录片中心制作的三部AI短剧《英雄》《爱永无终止》《奇幻专卖店》上线央视频。此后，博纳影业与抖音合作推出AI科幻短剧《三星堆：未来启示录》，快手也利用可灵AI原创上线了AI奇幻短剧《山海奇镜之劈波斩浪》。截至8月8日，抖音和快手打造的两部AI短剧在所属平台播放量已经分别累计达到5504.7万次和5243.2万次。

从这些AI短剧中可以看到，人物角色的面部特征从始至终保持一致。通常而言，单纯使用文字描述生成视频时，每次的结果都会有一定差异，那么，这些短剧的一致性是如何实现的呢？

李博杰分析，其中可能用到了文生视频的核心模型——ControlNet。ControlNet是一种“辅助式”的神经网络模型结构，通过在Stable Diffusion模型中添加辅助模块，形成一个“锁定”副本和可训练副本。简单来说，通过ControlNet完成人物形象建模后“锁定”，再通过可训练副本进行后期视频场景、动作等变换。

也正是因为“锁定”，视频人物难以实现大幅度动作，陈晓达经过实测后告诉记者，每生成一帧画面都是一次“开盲盒”的过程，无法确保生成内容符合标准，因此只能花费大量时间不断生成，从中挑选出可用画面拼凑成一部短剧，“你会发现宣传的都是3分钟以内的短剧，想要靠AI生成拼凑出一部完整的长视频作品，目前还做不到。”

《山海奇镜之劈波斩浪》导演陈坤同样认为，在人物一致性、场景一致性、人物表演、动作交互等AI技术还没有高度可控和精确化的前提下，AI影视作品并不适合呈现特别复杂的故事，容易让观众出戏。