1、什么是场景(Scene)
场景作为电影讲故事的关键单元,包含了演员的复杂活动及其在物理位置上的互动。识别场景的组成和语义是视觉理解复杂长视频(如电影、电视剧、娱乐节目和综艺节目)的关键一步。与传统视觉问题(如动作识别)中研究的视频相比,电影中的场景通常包含更丰富的时间结构和更复杂的语义信息。
场景变化在电影的叙事中起着重要的作用,举个例子:当我们看下面这些图中的任何一个镜头时,例如第二个镜头中的女人,我们并不能判断出当前的事件是什么。只有当我们考虑到这个场景中的所有镜头,我们才能认识到这是个什么事件:“这个女人在邀请一对情侣和乐队跳舞。”
1.1 场景的定义:
场景是一个基于情节的语义单元,其中某一活动发生在某一组角色之间。场景由单个或多个连续的镜头构成,虽然一个场景经常发生在一个固定的地方,但也有可能一个场景在多个地方之间不断穿梭,例如在电影中的打斗场景中,角色从室内移动到室外。
1.2 场景示例:
下图底部的蓝线对应于整个电影时间线,其中深蓝色和浅蓝色区域代表不同的场景。在场景10中,角色在两个不同的地方打电话,因此需要对这个场景有语义上的理解,以防止将它们分成不同的场景。在场景11中,内容变得更加复杂,因为这个直播场景涉及三个以上的地方和角色组。在这种情况下,只有视觉提示可能会无法正确划分出来,因此其他方面比如音频提示变得至关重要。