论文阅读：How you feelin‘? Learning Emotions and Mental States in Movie Scenes

yul1024

已于 2024-09-09 17:13:56 修改

阅读量420

点赞数 5

分类专栏： CV 多模态情感计算文章标签：论文阅读计算机视觉人工智能图像处理深度学习神经网络分类

于 2024-09-09 16:18:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yul1024/article/details/142052431

版权

CV 同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

目录

二、具体解读

3、模型架构

（1）消融实验

（2）SOTA对比

一、概况

这是一篇CVPR2023的文章，主要讲视频任务情感分析，使用多模态方法，在提取视觉的场景、人物特征和文本特征后，进行决策级融合。最终，获得一组情绪的标签。

二、具体解读

1、作者

2、任务

分析对象是电影片段。单独的模态下，分析的情感可能不准确，人物的实际情感可能与之相反。例如，下面例子人物实际情感都是偏向积极，但单独从图像或面部表情分析，结果可能是悲伤、冲突、焦急。

3、模型架构

EmoTx

实验处理，先人工对于原本的电影片段进行剪辑，这里选择的数据集为MovieGraphs。分别选择MVit对于场景信息进行提取，ResNet50(FER2013)对于面部表情信息进行提取，RoBERTa对于文本信息进行提取。ResNet50(FER2013)是面部表情的版本，RoBERTa是对于BERT改进的一个文本任务表现较好的encoder版本。

对于特征提取之后，首先通过Linear Layer将所有模态的embedding映射为相同维度，再分别处理。

通用处理为：

（1）加入各自的类别embedding，这里分为3类，分别代表场景、人物、文本。

（2）加入时间的embedding。

额外的处理：

人物部分。需要额外的embedding说明当前场景的角色数量。实际在后文的实验中，这里限制的数量为4，该文认为这足够覆盖大部分场景的情况。

决策融合阶段：

使用2层多头注意力机制，接收各个单独模型提取的特征的embedding。前面对于各个特征的embedding额外处理的操作均为直接将相关的embedding相加，然后输入head中。

目标输出为multi-label，即sequence-to-set方法，即同时输出多个判断的结果。具体输出为一个多维向量，每个位置是0则代表没有相关的情绪，是1则代表有相关的情绪。这里还有一个共用的类似解码器的模块，用于将head的输出转换为对于是否存在情绪的向量。

实际训练的过程，各个模态的顺序可以不同，人物的顺序可以不同。这主要还是原本在得到特征的embedding进行的额外处理得到的，算是一定程度上的泛化。

4、实验

（1）消融实验

（2）SOTA对比

三、总结

使用多模态方法的一个案例，其中sequence-to-set的方法可以关注。作者对于现有的数据进行额外的编辑和标注，但主要还是基于较短的视频进行分析和处理，实际数据量较小。特征的来源都是基于当时已有的模型，方法可以借鉴，相关代码已开源。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yul1024 CSDN认证博客专家 CSDN认证企业博客

码龄43天

4: 原创

149万+: 周排名

12万+: 总排名

3209: 访问

: 等级

109: 积分

53: 粉丝

69: 获赞

1: 评论

54: 收藏

私信

关注

热门文章

分类专栏

CV 4篇
多模态 4篇
LLM 2篇
agent 1篇
情感计算 1篇

最新评论

论文阅读：VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：How you feelin‘? Learning Emotions and Mental States in Movie Scenes
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Koala: Key frame-conditioned long video-LLM
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619293449。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。