项目实训—场景划分(一)

本文介绍了电影场景的理解,重点讨论了LGSS(局部到全局的多模态电影场景分割方法),它利用地点、演员、动作和音频信息进行场景分割。LGSS通过三个阶段进行场景分割,包括镜头表示、局部预测和全局优化。同时,文章提到了MovieScenes数据集,这是一个大规模的电影场景数据集,用于促进场景理解。
摘要由CSDN通过智能技术生成

1、什么是场景(Scene)

场景作为电影讲故事的关键单元,包含了演员的复杂活动及其在物理位置上的互动。识别场景的组成和语义是视觉理解复杂长视频(如电影、电视剧、娱乐节目和综艺节目)的关键一步。与传统视觉问题(如动作识别)中研究的视频相比,电影中的场景通常包含更丰富的时间结构和更复杂的语义信息。

场景变化在电影的叙事中起着重要的作用,举个例子:当我们看下面这些图中的任何一个镜头时,例如第二个镜头中的女人,我们并不能判断出当前的事件是什么。只有当我们考虑到这个场景中的所有镜头,我们才能认识到这是个什么事件:“这个女人在邀请一对情侣和乐队跳舞。”

请添加图片描述

1.1 场景的定义:
场景是一个基于情节的语义单元,其中某一活动发生在某一组角色之间。场景由单个或多个连续的镜头构成,虽然一个场景经常发生在一个固定的地方,但也有可能一个场景在多个地方之间不断穿梭,例如在电影中的打斗场景中,角色从室内移动到室外。

1.2 场景示例:
下图底部的蓝线对应于整个电影时间线,其中深蓝色和浅蓝色区域代表不同的场景。在场景10中,角色在两个不同的地方打电话,因此需要对这个场景有语义上的理解,以防止将它们分成不同的场景。在场景11中,内容变得更加复杂,因为这个直播场景涉及三个以上的地方和角色组。在这种情况下,只有视觉提示可能会无法正确划分出来,因此其他方面比如音频提示变得至关重要。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值