论文阅读:How you feelin‘? Learning Emotions and Mental States in Movie Scenes

4 篇文章 0 订阅
1 篇文章 0 订阅

目录

一、概况

二、具体解读

1、作者

2、任务

3、模型架构

(1)消融实验

(2)SOTA对比

三、总结


一、概况

这是一篇CVPR2023的文章,主要讲视频任务情感分析,使用多模态方法,在提取视觉的场景、人物特征和文本特征后,进行决策级融合。最终,获得一组情绪的标签。

二、具体解读

1、作者

2、任务

分析对象是电影片段。单独的模态下,分析的情感可能不准确,人物的实际情感可能与之相反。例如,下面例子人物实际情感都是偏向积极,但单独从图像或面部表情分析,结果可能是悲伤、冲突、焦急。

3、模型架构

EmoTx

实验处理,先人工对于原本的电影片段进行剪辑,这里选择的数据集为MovieGraphs。分别选择MVit对于场景信息进行提取,ResNet50(FER2013)对于面部表情信息进行提取,RoBERTa对于文本信息进行提取。ResNet50(FER2013)是面部表情的版本,RoBERTa是对于BERT改进的一个文本任务表现较好的encoder版本。

对于特征提取之后,首先通过Linear Layer将所有模态的embedding映射为相同维度,再分别处理。

通用处理为:

(1)加入各自的类别embedding,这里分为3类,分别代表场景、人物、文本。

(2)加入时间的embedding。

额外的处理:

人物部分。需要额外的embedding说明当前场景的角色数量。实际在后文的实验中,这里限制的数量为4,该文认为这足够覆盖大部分场景的情况。

决策融合阶段:

使用2层多头注意力机制,接收各个单独模型提取的特征的embedding。前面对于各个特征的embedding额外处理的操作均为直接将相关的embedding相加,然后输入head中。

目标输出为multi-label,即sequence-to-set方法,即同时输出多个判断的结果。具体输出为一个多维向量,每个位置是0则代表没有相关的情绪,是1则代表有相关的情绪。这里还有一个共用的类似解码器的模块,用于将head的输出转换为对于是否存在情绪的向量。

实际训练的过程,各个模态的顺序可以不同,人物的顺序可以不同。这主要还是原本在得到特征的embedding进行的额外处理得到的,算是一定程度上的泛化。

4、实验

(1)消融实验

(2)SOTA对比

三、总结

使用多模态方法的一个案例,其中sequence-to-set的方法可以关注。作者对于现有的数据进行额外的编辑和标注,但主要还是基于较短的视频进行分析和处理,实际数据量较小。特征的来源都是基于当时已有的模型,方法可以借鉴,相关代码已开源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值