视频编辑的新助手:基于大模型的智能代理

 人工智能咨询培训老师叶梓 转载标明出处

视频编辑的复杂性对于初学者来说是一个不小的挑战。为了降低这一门槛,一项由Meta、多伦多大学和加州大学圣地亚哥分校的研究团队共同提出的新技术——LAVE系统,为视频编辑带来了革命性的改变。LAVE系统旨在通过集成大型语言模型(LLMs)到视频编辑工作流程中,减少初学者在视频编辑过程中遇到的障碍。它不仅帮助用户生成视频编辑创意,还能浏览和查找相关片段,并将它们有序地排列,以构建一个引人入胜的叙事。

LAVE系统的用户界面和主要功能。它包括:
A) 视频编辑代理,用户可以通过对话获得帮助。B) 语言增强的视频画廊,用户可以点击视频选择并添加到编辑时间线。C) 系统自动生成的视频简洁标题。D) 鼠标悬停在视频上时显示的视频摘要工具提示。E) 用户可以重新排序和修剪片段的编辑时间线

设计LAVE系统有两个主要目标。目标D1是利用自然语言降低编辑障碍。这一目标的核心思想是通过LLM的语言智能,从最初的构思到编辑操作,增强手动视频编辑的范式,从而减少用户在编辑过程中遇到的障碍;目标D2是保持用户在编辑过程中的主体性。由于AI辅助内容编辑可能带来用户自主性和控制力的丧失,LAVE系统设计了AI辅助和手动编辑两种选项,使用户能够根据需要对AI的辅助进行细化或选择退出,从而保持用户主体性,确保最终产品反映用户的艺术视野,并授予他们决策权。

LAVE用户界面

LAVE系统的用户界面设计遵循了前述的两个主要设计目标。LAVE的UI由三个核心组件构成:1) 语言增强型视频库,它为视频片段提供自动生成的语义标题和摘要;2) 视频编辑时间线,用于对视频片段进行排序和剪辑;3) 视频编辑代理,一个基于聊天的交互界面,允许用户通过自然语言与代理交流,获取编辑过程中的协助。这些组件共同提供了一个集成了LLM智能的视频编辑环境。

LAVE的语言增强视频画廊,包括视频的语义标题、长度,以及当鼠标悬停在视频上时显示的详细摘要

LAVE系统拥有一个语言增强型视频库,如图3所示。与传统工具类似,它允许播放视频片段,但独特之处在于提供了视觉叙述,即系统自动为每个视频生成的文本描述,包括语义化的标题和摘要。这些标题有助于用户在不播放视频的情况下理解并索引片段,而摘要则提供了每个片段视觉内容的概览,有助于用户构建他们的编辑项目的故事线。视频的标题和时长显示在每个视频下方,鼠标悬停在视频上会显示带有叙述性摘要的工具提示。用户可以使用“添加到时间线”按钮选择片段添加到编辑时间线。如果用户希望使用他们的所有视频,可以使用“全选/全不选”选项将它们添加到时间线。另外LAVE允许用户使用语义语言查询搜索视频,检索到的视频会根据相关性在视频库中展示排序。这个功能必须通过编辑代理来执行。

从视频库中选择视频并添加到编辑时间线后,它们会显示在界面底部的编辑时间线上。时间线上的每个片段由一个盒子表示,盒子展示了视频的开始、中间和结束帧的缩略图,以说明其内容。在LAVE系统中,每个缩略图帧代表片段中的一秒钟画面。与视频库中一样,每个片段的标题和描述也被提供。编辑时间线在LAVE中具有两个关键功能:片段排序和修剪。每种功能都提供了基于LLM的选项和手动选项,使用户能够在AI辅助方面拥有灵活性和控制权。

LAVE的视频编辑时间线,用户可以通过拖放来重新排列视频片段的顺序,也可以通过双击打开修剪页面

片段排序是视频编辑中的常见任务,对于创建连贯的叙事至关重要。LAVE支持两种排序方法:基于LLM的故事板功能,根据用户提供的或LLM生成的故事线排序片段;手动排序允许用户通过直接操作来安排片段的顺序。用户可以通过拖放每个视频框来设置片段出现的顺序。如果用户想从时间线上删除视频,他们可以选择特定片段并点击"删除"按钮。还有一个"清除全部"选项,用于同时从时间线上删除所有视频。此外,用户可以使用"撤销"按钮来撤销任何编辑。为了预览当前片段序列的组合输出,用户可以点击"播放"按钮,之后系统会生成一个预览视频供用户查看。

修剪是视频编辑中的关键环节,用于突出关键片段并删除冗余内容。用户可以通过双击时间线上的片段来打开一个弹出窗口,该窗口显示一秒一帧的画面。与片段排序类似,LAVE支持基于LLM的修剪和手动修剪。基于LLM的修剪为用户提供了一个文本框,用户可以在其中输入修剪命令,根据他们的规格提取视频片段。这些命令可以是自由形式的,例如,它们可能指代视频的语义内容,如"只保留专注于棒球比赛的片段",或指定精确的修剪细节,如"给我最后5秒"。命令也可以结合这两个要素,如"获取狗坐在椅子上的3秒"。此功能利用LLM的信息提取能力来识别与用户描述相符的片段。为了透明度,LLM还会解释其修剪的理由,详细说明它们如何与用户指令对齐。手动修剪允许用户通过点击缩略图来手动选择片段的开始和结束点。当基于LLM的修剪不符合他们的意图时,用户也可以使用这个功能来细化修剪。

LAVE的片段修剪窗口,用户可以手动设置开始和结束帧,或者使用LLM支持的修剪功能输入修剪命令

LAVE的视频编辑代理是一个基于聊天的组件,使用户能够与基于LLM的代理进行互动。与命令行工具不同,用户可以使用自由形式的语言与代理交互。代理利用LLM的语言智能提供视频编辑辅助,并且能够提供定制化的响应,以在整个编辑过程中指导和协助用户。

为了与代理合作,用户首先通过输入他们的编辑目标来开始这个过程。代理解释用户的目标,并制定一个行动计划来实现它们。代理在两种模式下操作:计划和执行。默认情况下,代理以计划状态开始。在这种状态下,每当用户输入一个编辑目标,代理就会评估它以确定要执行哪些行动来实现用户的目标。代理可以执行多个行动,特别是当用户的目标广泛且涉及多种操作时。例如,如果用户输入"我想制作一个视频,但我没有任何想法",代理可能会提出一个计划,包括头脑风暴创意、寻找相关素材,并根据头脑风暴的概念构建叙事。另一方面,用户也可以发出一个特定命令,使行动计划只包含一个所需的行动。提出的计划在执行前需要用户批准,用户可以请求调整或澄清。执行在用户按下"回车"键后开始,用户批准将代理转换为执行状态,代理开始依次执行计划中的行动。每完成一个行动,代理都会告知用户结果和下一个行动(如果有)。用户可以再次按下"回车"键以继续后续行动,或与代理交互以更改或取消剩余计划。代理保持对之前对话的记忆缓冲,这使得它能够在提出功能时访问最近的上下文。

LAVE的代理支持四种编辑功能:素材概览和创意头脑风暴提供基于LLM的总结和构思能力的概念化辅助。另外两个功能,视频检索和故事板制作,分别利用LLM的嵌入和叙事能力来促进手动编辑过程。

  • 素材概览:代理可以生成概述文本,根据主题或话题对用户提供的素材进行分类。
  • 创意头脑风暴:代理可以根据素材库中的视频帮助用户进行头脑风暴,提出各种概念,激发用户的创意。
  • 视频检索:代理可以根据语言查询帮助用户检索相关视频,然后按相关性在视频库中展示这些视频。
  • 故事板制作:代理可以帮助用户根据提供或自动生成的叙事或故事线对时间线上的片段进行排序。
LAVE的视频编辑代理的操作状态,包括规划状态和执行状态,以及用户如何与代理交互来制定和执行编辑计划

一旦代理生成了故事板,时间线上的视频将相应地重新排序,并且代理还会在聊天室中提供故事板的场景描述。

总的来说LAVE提供了从构思和预规划到实际编辑操作的工作流程特性。然而,系统并不强制执行严格的工作流程。用户可以根据自己的编辑目标灵活地使用特性的子集。例如,具有清晰编辑构想和明确故事线的用户可能会跳过构思阶段,直接进入编辑。另外LAVE目前主要设计用于休闲编辑,例如为社交媒体平台创建视频。将LLM代理集成到需要极高精确度的专业编辑中的工作被留作未来的任务。

代理的设计和实现

LAVE代理利用了大型语言模型(LLMs)的多种语言能力,包括推理、规划和叙事。代理有两种状态:计划(Planning)和执行(Executing)。计划-执行方法提供了两个主要好处:首先它允许用户设置包含多个操作的高级目标,消除了像传统命令行工具那样详细说明每个单独操作的必要性;其次,在执行前,代理向用户展示计划,提供了修订的机会,并确保用户保持完全控制。

代理的设计包括一个后端管道,用于促进计划-执行代理的操作。如图6所示,该管道从基于用户输入创建行动计划开始,然后将这个计划从文本描述转换为函数调用,最后执行相应的功能。

LAVE计划和执行代理的设计

LAVE的视频编辑代理采用了一种专门的LLM提示格式,这受到了以往关于LLM提示的研究的启发。提示的前言由三个部分组成:角色分配、动作描述和格式指导。角色分配的开篇段落指示代理充当视频编辑助手,负责从用户命令生成行动计划。动作描述随后列出了代理可以执行的一系列动作,每个动作对应LAVE支持的一个编辑功能。格式指导最后指导代理以一致的格式输出行动计划,首先确定用户的编辑目标,然后是逐步计划,列举建议的行动以实现该目标。每个行动包括功能名称及其相关上下文。

为了将行动计划转化为可执行的函数。LAVE解析行动计划中的每个动作描述,并将其转换为相应的后端函数调用。使用OpenAI GPT-4的检查点,该检查点已经针对函数调用进行了微调,以完成这种转换。利用函数调用功能,LLM可以将文本提示,即动作描述,转换为具有上下文提取参数的相应编辑函数调用。函数执行的结果会更新到前端UI并呈现给用户。

LAVE支持五种由LLM驱动的编辑功能:素材概览、创意头脑风暴、视频检索、故事板制作和片段修剪。前四个功能通过代理访问,而片段修剪通过在编辑时间线上双击片段时出现的窗口进行。这些功能都建立在自动生成的原始素材的语言描述之上,包括每个片段的标题和摘要。

表1列出了每种LLM驱动的编辑功能的输入、输出以及UI更新的部分。图10提供了每个功能机制的额外插图。接下来的小节首先描述了生成视觉叙述的预处理过程,然后深入到每个功能的实现。

生成视觉叙述的过程涉及以每秒一帧的速率采样视频帧,然后使用LLaVA v1.0对每个帧进行字幕处理,该版本建立在Vicuna-V1-13B之上,这是一个针对LLaMA-V1-13B模型的微调检查点。编译完帧描述后,利用GPT-4生成标题和摘要。另外每个视频都被分配了一个独特的数字ID,这有助于LLM在故事板等功能中引用个别片段。

LAVE的视频检索功能使用了一个向量存储,该存储通过使用OpenAI的text-embedding-ada-002嵌入每个视频的视觉叙述(标题和摘要)来构建。这一过程为每个视频生成了1536维的嵌入。检索期间,LAVE使用相同的模型嵌入查询,计算查询与存储的视频嵌入之间的余弦距离,相应地对视频进行排名。随后,LAVE根据排名更新前端UI视频库中的视频。

提示LLM将视频归类为常见主题,提供用户视频集合中的主题摘要。提示包括功能指令,随后是画廊视频的视觉叙述。然后这个提示被发送到LLM以生成概述,随后在聊天UI中呈现给用户以供审查。

提示LLM根据用户的所有视频生成创意视频编辑想法。提示结构以功能指令开始。如果提供了,会在提示中包含用户的创意指导以引导头脑风暴。如果用户没有提供任何指导,它将默认为"general"。在创意方向之后附加了所有画廊视频的视觉叙述,并将提示发送给LLM以完成。与素材概览类似,生成的视频想法将呈现在聊天UI中。

LAVE的故事板功能根据用户提供的叙述顺序排列视频片段。与以前的功能不同,它只影响时间线上的视频。与创意头脑风暴类似,系统会检查用户对叙述的任何创意指导,如果没有指导,LLM将根据时间线视频创建一个叙述。提示以功能指令开始,随后是任何用户叙述指导,然后是时间线视频的视觉叙述。输出以JSON格式结构化,键"storyboard"映射到详细每个场景的文本,"video_ids"映射到表示序列的视频ID列表。这种格式有助于解析结果的下游处理。执行完成后,包含场景描述的"storyboard"将在聊天UI中显示,并且时间线上的视频顺序将根据"video_ids"更新。

LAVE利用LLM的推理和信息解析能力来修剪视频片段。这个功能分析帧字幕,以识别与用户修剪命令匹配的视频片段。用户修剪命令和预处理期间生成的逐帧字幕附加在一起。然后,这个编译的提示被发送到LLM以完成。输出也以JSON格式结构化:"segment":["start", "end", "rationale"],指示开始和结束帧ID,以及这一预测的理由。收到LLM的响应后,LAVE更新UI以显示建议的修剪片段及其理由,从而帮助用户理解LLM的决策过程。目前,LAVE的修剪精度基于预处理中使用的帧采样率,为一秒。通过改变采样率,可以调整这种精度。

作为一个全栈网络应用。前端UI使用React.js开发,后端服务器使用Flask。对于LLM推理,主要使用OpenAI的最新GPT-4模型。对于将行动计划映射到函数,使用专门为函数调用使用而微调的gpt-4-0613检查点。在构建系统时,GPT-4的最大上下文窗口长度为8192个标记。有了这些限制,代理可以容纳并在单个LLM调用中处理大约40个视频的描述。本系统使用LangChain的ChromaDB包装器来构建向量存储。视频预处理是在配备有Nvidia V100 GPU的Linux机器上执行的。使用ffmpeg来合成用户视频编辑的结果。

用户调研

研究团队招募了具有不同视频编辑经验的用户,以收集他们对LAVE系统的感知反馈。在初学者中,P8的经验最少,最后一次编辑视频是几年前。另外4名参与者(P1-3, P6)认为自己是熟练的,拥有丰富的视频编辑工具经验。所有参与者都有一定程度的LLM使用经验,他们对LLM的能力和局限性的理解程度从"稍微不同意"到"强烈同意"不等。

参与研究的用户的背景信息,包括他们之前在视频编辑方面的经验、他们以前制作过的视频类型,以及他们对大型语言模型(LLM)的能力和局限性的自我报告理解

在研究前一天,参与者被要求提交一组视频进行预处理。他们需要提供至少20个片段,每个片段不超过一分钟,以充分利用系统的功能。研究持续时间从1到1.5小时,在安静的环境中进行,以减少干扰。参与者到达后,首先获得了研究概述和LAVE系统特性的详细解释,这个过程大约需要15到20分钟。然后,他们使用自己的视频素材与LAVE系统互动,目标是至少制作一个视频。参与者可以自由探索并制作多个视频,但他们需要在20到30分钟的时间内完成。在与系统的会话结束后,参与者完成了一份问卷。问卷收集了对每个LLM驱动功能的有用性和易用性,以及整个系统的反馈。问题还涉及了信任、主体性、结果责任以及参与者对代理角色的看法。研究还从创意支持指数[18]中借鉴了适用的问题。用户提供了他们在每个编辑功能上对代理辅助和手动操作的偏好。问卷中的所有问题都基于7点李克特量表。随后,进行了大约20到30分钟的半结构化访谈。在整个研究过程中,鼓励参与者分享他们的想法并提出问题,遵循大声思考的方法[69]。研究没有指导参与者在研究期间优先考虑速度,因为这并不是目标。目的是观察用户如何利用LAVE进行视频编辑并收集反馈。

结果所有参与者都能在研究会议中使用LAVE制作出令人满意的视频结果,并且挫败感较低(平均分为2,标准差为1.3)。7名参与者对最终结果的满意度评为7分中的6分,而参与者P2给出了5分。用户发现LAVE使用起来愉快(平均分为6.3,标准差为0.5),并表示愿意定期使用(平均分为5.8,标准差为0.9)。值得注意的是,对于没有经验的使用者(D1),LAVE降低了编辑障碍,例如,之前只编辑过一次视频的P8赞扬了使用LAVE的效率,表示“我真的看到了这个工具的价值……在20或30分钟内,你就能得到一个非常好的视频。” 这得到了所有初学者用户在第一次使用LAVE时都能制作出令人满意成果。

参与者对LAVE的编辑范式表示赞赏。例如,熟悉视频编辑的P3评论说,“我认为市场上现在还没有类似的产品,我能够非常快速地编辑视频。”同样,P5在使用LAVE时对自己扮演的角色发表了有趣的评论,说,“系统让我感觉像个导演,用会话界面编辑视频很好,因为它感觉更自然。” 他继续表示,他感到自己“以更高的思维层次运作,这有点解放。”

参与者发现LAVE的设计有用且易于使用,正如图7所示的正面评价所反映的。然而,对于一些功能的有用性评价存在差异。负面反馈通常源于两个主要原因:首先,高度重视原创性的参与者(通常是熟练的编辑者)倾向于在构思视频创意和形成对视频的理解时保持自主权。因此,他们可能倾向于拒绝代理的概念化辅助。其次,由于LLM的随机性质,修剪和故事板等功能的输出可能不总是符合用户的期望,导致一些参与者对它们的有用性评价较低。

图8展示了与信任、主体性和结果责任相关的问题的用户评分。参与者发现LAVE的自动化通常是值得信赖的,并感到在使用系统时拥有高度的控制,突出了尽管AI自动化,他们仍然保持了主体性(D2)。当被询问最终结果的责任时——无论是归因于AI、用户,还是共同努力——普遍的情绪是拒绝AI单独影响了最终产品的观点。大多数人同意他们个人负有责任,或者这是与AI共同努力的结果,除了P8,他感到他主要依赖于AI的建议。

研究进一步探讨了用户如何感知LAVE的编辑代理的角色:是作为一个助手、合作伙伴还是领导者。一半的参与者将代理视为“助手”(P2, P3, P7, P8),另一半则将其视为“合作伙伴”(P1, P4, P5, P6)。值得注意的是,没有人认为AI代理扮演了领导角色。在助手类别中的人通常将代理视为一个响应工具,遵循他们的指示。相反,合作伙伴组将代理比作平等的合作者,有时甚至将这种体验等同于与人类同行的交流。P5评论说,“使用这个工具时,我与AI有一种合作伙伴关系,这有点像与某人进行对话,我们正在尝试构思想法。”

如图9所示,用户普遍对系统对创造力的影响持积极态度。所有用户都在某种程度上同意AI有助于创意过程。此外,8名参与者中有6名认为系统增强了他们的创造力。例如,P8提到,“真正阻碍我进行视频编辑的是,这是一个非常有创意的工作,我觉得我缺乏创造力。这个工具正是解决这个问题的。”(D1)。然而,并非所有参与者都感到系统增强了他们的创造力——P7持中立态度,P2强烈反对这一说法。当询问用户的共同创造意识时,回答范围从“稍微不同意”到“强烈同意”。分析后发现,将LAVE代理更多看作合作伙伴的参与者(第6.3.5节)更有可能在视频编辑过程中感到他们正在与AI共同创造(平均分为6.5,标准差为1)。相比之下,那些仅仅将LAVE代理视为助手的人报告说他们与AI的共同创造意识较低(平均分为4.25,标准差为1.9)。最后,所有用户都积极地认为最终结果值得他们投入的努力,这与他们对结果的满意度报告相呼应。

观察到用户对LAVE代理支持的期望存在差异。对于与概念化相关的任务,强调创意控制的用户往往不喜欢来自代理的输入(P2, P3)。相比之下,P8表示强烈希望采纳代理能提供的任何想法。对于手动操作任务,也存在类似的趋势,并非所有用户都欢迎代理的干预。例如,P8希望故事板完全自动化,而P2和P7更倾向于手动排列视频。当涉及到片段修剪时,P3, P7和P8更倾向于手动调整,强调LLM的预测并不完全符合他们的意图。用户和任务之间的不同偏好表明,未来的代理辅助内容编辑应提供适应性支持,而不是一刀切的方法。

研究者发现与LLM的先前经验有时会影响用户对LAVE的感知和交互方式。发现对LLM的能力和局限性有更深入理解的用户似乎能够更快地形成代理操作的心理模型。这样的用户可以根据他们认为LLM能更有效处理的内容来调整他们使用系统的方式。例如,P5试图重用视频标题中的单词,假设LLM代理会更好地理解他的命令。当LLM出错时,他也表现出更大的耐心。进一步研究用户如何为LAVE和类似系统发展心理模型,无论是对于有还是没有LLM经验的用户,都是未来研究的一个有趣主题。

尽管LAVE系统在用户研究中表现出了潜力,但它仍存在一些限制。例如,LLM的令牌窗口限制了单个提示中可包含的视频信息量,而且LLM可能会产生逻辑正确但实际无意义的响应。未来的工作可以探索更复杂的代理设计,提供更精细的视频编辑控制,并集成非LLM基础的编辑功能。另外未来的研究可以扩大用户研究的规模和多样性,以进一步验证和扩展我们的发现,并进行定量评估代理的性能。

论文链接:https://arxiv.org/abs/2402.10294

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值