项目实训—场景划分(一)

weixin_46449172

已于 2022-06-10 18:52:45 修改

阅读量4.5k

点赞数

分类专栏：项目实训文章标签：计算机视觉

于 2022-03-20 23:54:12 首次发布

本文链接：https://blog.csdn.net/weixin_46449172/article/details/123624480

版权

本文介绍了电影场景的理解，重点讨论了LGSS（局部到全局的多模态电影场景分割方法），它利用地点、演员、动作和音频信息进行场景分割。LGSS通过三个阶段进行场景分割，包括镜头表示、局部预测和全局优化。同时，文章提到了MovieScenes数据集，这是一个大规模的电影场景数据集，用于促进场景理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、什么是场景（Scene）

场景作为电影讲故事的关键单元，包含了演员的复杂活动及其在物理位置上的互动。识别场景的组成和语义是视觉理解复杂长视频（如电影、电视剧、娱乐节目和综艺节目）的关键一步。与传统视觉问题(如动作识别)中研究的视频相比，电影中的场景通常包含更丰富的时间结构和更复杂的语义信息。

场景变化在电影的叙事中起着重要的作用，举个例子：当我们看下面这些图中的任何一个镜头时，例如第二个镜头中的女人，我们并不能判断出当前的事件是什么。只有当我们考虑到这个场景中的所有镜头，我们才能认识到这是个什么事件：“这个女人在邀请一对情侣和乐队跳舞。”

请添加图片描述

1.1 场景的定义：
场景是一个基于情节的语义单元，其中某一活动发生在某一组角色之间。场景由单个或多个连续的镜头构成，虽然一个场景经常发生在一个固定的地方，但也有可能一个场景在多个地方之间不断穿梭，例如在电影中的打斗场景中，角色从室内移动到室外。

1.2 场景示例：
下图底部的蓝线对应于整个电影时间线，其中深蓝色和浅蓝色区域代表不同的场景。在场景10中，角色在两个不同的地方打电话，因此需要对这个场景有语义上的理解，以防止将它们分成不同的场景。在场景11中，内容变得更加复杂，因为这个直播场景涉及三个以上的地方和角色组。在这种情况下，只有视觉提示可能会无法正确划分出来，因此其他方面比如音频提示变得至关重要。