复旦发布MovieLLM,让大模型看懂电影

前两天我们介绍了大模型写歌神器点击即可播放!港中文发布大模型写歌神器!

最近,复旦又发布了合成高质量长视频数据的新框架——MovieLLM,利用GPT-4并引导文图生成模型生成一致的电影级视频关键帧,利用该框架生成的长视频指令数据,显著提高了多模态模型在理解复杂视频叙事方面的性能,让大模型更懂电影。

先来看看效果:

提供给模型几张电影关键帧:

图片

并询问:你能用几句话概括一下这部电影吗?

模型能给出详细并正确的故事概括:

在《Splice》这部电影中,科学家克莱夫·尼科利和艾尔莎·卡斯特试图通过将人类DNA植入猪胚胎来创造一个杂交生物。然而,实验出现了意外,猪胚胎经历了迅速的生长和进化。艾尔莎的哥哥加文也参与了这次实验,他变得痴迷于拯救他的兄弟克莱夫脱离实验。随着杂交生物德伦的成长,它开始迅速发育,并展现出复杂、不可预测的个性。德伦的行为愈发失控,最终导致了一场冲突,德伦杀死了艾尔莎,并被迫接受安乐死。电影以克莱夫和加文反思他们所创造的道德困境和他们科学成就的道德影响而告终。

但没有经过该数据微调的模型则错误的将电影主旨的“人类DNA植入猪胚胎来创造一个杂交生物”识别为“一个名为德伦的人工智能”。后续有完整的对比示例。

另外,经过高质量数据微调后的模型还能根据文本提示生成风格更一致,画面细节更丰富的关键帧,氛围感拉满,堪比大片。

图片

这样发展下去,以后拍电影、短视频的门槛又降低了很多,脚本都可以直接让模型生成了。甚至!直接大模型生成电影了。

图片

论文标题:
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies

论文链接
https://arxiv.org/pdf/2403.01422.pdf

方法

该方法包括三个相互关联的步骤:电影情节生成、风格固定化过程和视频指导数据生成。仅凭简单的主题描述,就能够生成整部电影的关键帧。

整个流程如下图所示:首先利用GPT-4基于主题短语生成整个电影情节;利用文本反转技术将从情节生成的风格描述固定到扩散模型的潜在空间,引导其生成具有固定风格的帧。整合先前获取的所有信息,最终生成一致的关键帧和相应的问答对。完整流程如下图所示:

图片

1. 电影情节生成

每个电影情节包括概述、角色和镜头描述等基本要素。首先利用GPT-4强大的能力生成多样且引人入胜的电影情节。本文提出了三种主要策略:

  • 首先利用GPT-4生成一组可信的电影剧本。随后,基于这些剧本构建可重复使用的提示,以批量生成各种电影情节。在此过程中,描述电影主题的短语,如“一部悲剧电影”,作为变量,指导GPT-4根据特定主题创建电影情节;

  • 在电影情节文本中,利用GPT-4生成了角色和风格描述,确保在视频的关键镜头中角色描绘和风格属性的高度一致性。

  • 为了获得电影级视频的帧描述并最大程度地减轻遗忘问题,作者采用了三级故事扩展策略。该策略可分为三个级别:(a) 章节生成,其中每个章节代表故事发展中的重要时期。(b)叙事线生成,其中每个线索将每个主要章节细化为更具体的叙事子故事。(c) 帧描述生成,其中每个帧描述详细阐述这些叙事子故事,描绘关键的视觉帧。整个过程如下图所示:

图片

下面展示了生成电影情节的一个例子

图片

2.风格固定化过程

作者利用textual inversion将生成的电影情节中的风格描述进行转换,为文生图模型生成具有一致风格的场景的信息和视频指导数据。

1)利用stable diffusion生成基于特定风格描述的任意风格景。2)使用textual inversion将这些场景图像通过优化步骤转换为嵌入。这些嵌入可以指导扩散模型生成具有特定风格的图像。

实质上,将由GPT-4生成的某种电影风格固定在潜在空间中作为一个嵌入,对应于一个特定的token。因此,在生成连续的关键帧图像时,仅使用特定token会触发扩散模型以特定风格生成图像,确保跨帧场景的一致性。

3. 视频指导数据生成

完成了前两个步骤后,已经获得了固定的风格嵌入、以名人为基础的角色,以及关键帧描述。基于这些,可利用风格嵌入来引导stable diffusion,根据关键帧描述生成关键帧。此外,本文根据电影情节逐步生成各种指导问答对。

一致的关键帧生成

为了生成角色与场景风格统一的关键帧,作者首先利用GPT-4选出相应的名人,替换帧描述中的角色名称。然后,运用与特定风格token关联的固定嵌入作为条件,指导stable diffusion模型生成具有一致风格的场景。这个过程通过一个代表特定风格的token触发,如“哥特风”。因此,只需在帧描述开头加入如“以哥特风风格生成图像”的指令,并结合名人为基础的角色名称,即可生成既统一又富有视觉多样性的关键帧。

问答对生成

除了电影文本和视觉信息,丰富的问答对能利用多模态信息有效指导模型学习,深化对电影级叙事的理解。因此作者借助GPT-4,围绕电影情节生成涵盖概述、细节、地点及原因等各方面的问答对,以丰富模型的学习素材。

实验

作者在LLaMA-VID上进行了视频相关实验,其训练过程分三个阶段:模态对齐、指令调整和长视频调整。前两阶段使模型能理解图像和短视频。第三阶段,使用了原始长视频数据集对LLaMA-VID进行微调。随后,以此为基础模型,本文创建的数据集上进一步微调,以便进行比较。

数据统计

本文生成的指令调优数据包含丰富的问答对,提取了关于视频内容的深入信息。支持15种不同类型的电影级别视频,显著增强了泛化能力。本文的方法非常灵活,可以生成任何主题和长度的视频。

图片

评估指标

作者主要从两个主要方面评估文本方法:生成视频关键帧的质量和视频理解。

  • 视频关键帧质量:考虑两个指标:1)关键帧一致性,通过在CLIP图像空间中计算关键帧相邻嵌入之间的平均余弦相似度来计算。2)文本-图像对齐,通过每个关键帧描述与关键帧本身之间的平均余弦相似度来计算。此外,使用非参考图像质量评估指标BRISQUE分数来评估图像质量。

  • 视频理解:分别对短视频和长视频进行评估。鉴于现有作品中没有专门针对电影级视频理解的基准,作者从短视频理解指标的设计中汲取灵感,精心设计了长视频理解基准。

    • 短视频评估:a)基于视频的生成性能基准,其中包括五个方面来评估模型性能。b)零样本问答评估,这是一个综合定量评估,使用几个常用的开放式问答数据集,包括MSVD-QA和MSRVTT-QA。

    • 长视频评估:提出了一个新的基准。测试数据集取自MovieNet数据库的约100部电影,问答对由GPT-4与人类共同生成。采用GPT-4的自动评估,如下图所示,通过对比模型预测与事实,在1-5分范围内评估模型在概述理解、情节理解、时间理解三方面的能力,如下图所示:

图片

实验结果

关键帧质量

将本文呢基于固定风格嵌入的方法与两种类似的现有方法进行比较,下表显示,该方法在所有三个指标上优于现有方法,生成了一致且高质量的关键帧。

图片

短视频理解

在本文提出的数据集上训练的模型在基准上取得了显著的性能改进。结果表明,尽管本数据侧重于长视频指导调整,但仍可以增强模型对短视频的 理解,展示了该数据集的鲁棒性

图片

图片

长视频理解

如下表所示,该方法在概述、情节和时间理解等方面明显优于基准线。这展示了该数据集的丰富性,证明了它们在增强模型对长视频理解的显著有效性方面的重要性。

图片

定性分析

下图展示了本文方法和其他方法生成的关键帧的质量。从图中来看,本文的方法生成了更加一致和高质量的帧。

图片

另外作者还测试了该模型对视频理解的程度,比如询问模型是否能用几句话概括一下这部电影,从下图的对比结果来看,本文的模型在视频理解中给出了更合理和详细的答案。

图片

结论

本文提出了一种有效的方法来生成电影级别视频的关键帧。整个数据生成过程包括三个主要步骤:电影情节生成、风格固定化过程和视频指导数据生成。所提出的数据生成工作流显著简化了为模型生成电影级别视频数据的挑战,增强了生成内容的控制性和多样性。由于该数据集的丰富性,模型展示了在早期数据集训练时无法达到的能力。

相信该数据生成流程将对多模态模型理解长视频的进展做出重要贡献。

  • 24
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值