论文阅读笔记（一）

XAL1

已于 2024-06-13 11:33:33 修改

阅读量3.3k

点赞数 4

分类专栏：论文阅读文章标签：论文阅读人工智能深度学习

于 2022-09-12 18:54:14 首次发布

本文链接：https://blog.csdn.net/weixin_45607635/article/details/126754083

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

《MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos》

发表年份： 2016

主要贡献：

提出了Multimodal Opinion-level Sentiment Intensity (MOSI) 数据集
提出了多模态情绪分析未来研究的基线
提出了一种新的多模态融合方式

1 引言

在这些在线意见视频中研究情绪主要面临的挑战和解决方法：

挑战	解决方法
这些视频的不稳定性和快节奏性。演讲者经常在主题和观点之间切换。这使得识别和区分发言者表达的不同观点变得具有挑战性。	该文章提出了一种主观性注释方案，用于在线多媒体内容中的细粒度意见分割。
这些意见视频中表达的情绪强度的范围和微妙性。希望方法不仅能够识别视频片段的极性（例如，正面或负面），而且还能估计表达情绪的强度。	每个意见片段中的情绪都被注释为高度积极和高度消极范围之间的值。
如何使用信息而不仅仅是文本？简单地关注口语（例如，基于文本的情感分析）可能会带来歧义，这将通过视觉信息来解决。	该文章提出了与情感强度相关的语言和手势的多模态研究，这导致了多模态字典的想法。

2 相关工作

2.1 多模态情绪分析数据集

数据集	详情
YouTube Opinion Dataset	包含了来自YouTube的47条视频。该数据集由手动转录的文本和自动提取的音频和视频特征以及自动提取的话语组成
MMMO Dataset	是YouTube Opinion Dataset的扩展，将47个视频扩展到370个
Spanish Multimodal Opinion Dataset	是西班牙多模态情绪分析数据集。它由105个视频组成，在话语层面对情感极性进行了注释，总共包含了550个话语（话语是基于长时间停顿自动提取的，大多数视频有 6-8 个话语）

这些数据集都没有情感强度注释，它们更注重极性，主要关注对视频或话语的分析，而不是对情绪细粒度（fine-grained）的分析。

3 MOSI：Multimodal Opinion-level Sentiment Intensity Corpus（多模态意见级情感强度语料库）

该数据集包括：

多模态观测数据，包括转录的语音和视觉姿势以及自动音频和视觉特征
意见级的主观分割
具有高编码一致性的情感强度注释
单词、视觉和听觉特征之间的对齐

3.1 采集方法

从YouTube上下载用户表达有关不同主题的意见的video-blog 或者 vlog。

要求：

只有一个讲话者，并且主要面向相机
可以允许记录设备的设置不一样
可以允许用于和相机之间的距离不同
可以允许不同视频的背景和光线不同
视频保持他们原始的分辨率，并且以MP4的格式记录
每个视频的长度在2~5分钟内

按照上述要求选择了93个视频，最后视频集合中包含89位不同的演讲者，其中有41位女性和48位男性，年龄在20~30岁之间，都用英语表述，数据集示例如下图：

所有的视频剪辑都是手动转录的以提取口语和每个口语开始的时间。转录分为4个阶段：

由一位专家手动转录所有的视频
由第二位转录员审查和纠正所有的转录内容
使用称为 $P2FA^4$ 的强制对齐器将文本在单词和音素级别与音频对齐
手动检查对齐，如果需要，使用 $PR AA T$ 进行校正

3.2 意见级的主观分割

该文章将主观性定义为一种私人状态的表达，一种通过携带一种观点、信仰、思想、感觉、情感、目标、评价或判断来区分的状态。用一下3个规则定义主观性：

明确提及私人状态——直接提及私人状态。例如，“I also love the casting of Mark Strong as Sinestro.”
表达私人状态的语音事件——私人状态已被另一个人说过或者写过。例如，“Shia LaBeouf said that the second movie lacked um heart.”
表达主观——不是直接的意见，而是对意见的隐含参考。例如，“I would never recommend watching this movie.”

主观性注释产生了2199个主观片段和1503个客观片段，对于情感注释，只关注主观部分。数据集和意见段的详细统计数据见下表：

3.3 情感强度注释

情绪强度定义：从强烈消极到强烈积极，线性标度从 -3 到 +3。
标定者：认可率高于95%的Amazon Mechanical Turk网站的在线工作人员
标定视频：2199个主观意见段
注释结果选择：strongly positive (labeled as +3)，positive (+2)，weakly positive (+1)，neutral (0)，weakly negative (-1)，negative (-2), strongly negative (-3)，uncertain
任务表述：“How would you rate the sentiment expressed in this video segment? (Please note that you may or may not agree with what the speaker says. It is imperative that you only rate the sentiment state of the speaker, not yourself)”
注释次数：每个视频由5个工人标定，最后取平均值

数据集中情感强度注释结果如图所示：
在这里插入图片描述

3.4 视觉姿势标注

音频和视觉特征自动从MPEG文件中提取，音频帧率位1000，视频帧率位30。
视觉特征包括16个面部动作特征，68个面部标志、头部姿势和方向、6个基本情绪和眼睛注视。
使用COVAREP提取了超过32个音频特征，包括音高、能量、NAQ（归一化幅度商）、MFCCs（梅尔频率倒谱系数）、峰值斜率、能量斜率。

并且，提供手动姿势注释来研究单词和姿势之间的关系，由于手在视频中并不常见，因此专注于面部姿势，选择了4种姿势和表情：微笑、皱眉、点头和摇头。注释是通过简单地标记具有这些表达中的每一个的意见段来进行的。一个专家编码器手动注释了所有 2199 个视频片段，另一个编码器注释了这个数据集的一个子集，以确认编码器的高度一致性。对于所有 4 个姿势，平均编码一致性为 80.8%

3.5 单词和视觉姿势的多模态分析

动机：想要理解单词和视觉姿势之间的交互模式
研究方案：研究当特定面部姿势存在与否时感知情绪强度分布的变化
研究问题：是否所有口语都与面部姿势进行相似的交互，或者在这些多模态交互中是否存在原型模式？

图 3 显示了多模态分析中的代表性示例，图 3 中显示的每个子图都是一个直方图，表示每个意见段的感知情感强度分布。图中可以看出口语和面部姿势之间可以分为4中不同的交互模式：中性、强调、积极和消极模式。
在这里插入图片描述

4 情绪和主观分析基线

设置：

所有实验在演讲者独立框架中完成
每一个演讲者的意见段只会出现在训练、验证或测试集某一个中（因为在同一个演讲者上训练和测试的模型不能推广到看不见的演讲者上）

4.1 情绪分析基线

方法：所有预测模型均使用 nu-SVR进行训练，并使用 5 折交叉验证方法进行测试。超参数的自动验证在训练集上进行了 4 折交叉验证。线性 nu-SVR 的超参数是 $C$ 和 $n u$ 。在验证阶段， $C$ 是从范围 [-5，3] 的 10 次幂中自动选择的， $n u$ 以0.1位步长从[0.1，1] 自动选择。回归器的性能是根据平均绝对误差 (MAE) 和相关性计算的。在这些研究中，我们训练了以下模型：

模型	描述
Random	一个简单的基线模型，该模型始终预测 [-3, +3] 之间的随机情绪强度，这个基线给出了关于随机模型如何工作的总体思路
Verbal	仅使用MOSI中的语言特征进行训练。一个非常简单的词袋特征集是从语音片段中的单词创建的字母组合和双字母组合创建的，包括语音暂停和暂停填充。考虑到它们的频率不高，数据集中少于 10 个实例的所有特征都从词袋中删除。
Visual	使用4中面部姿势进行训练。
Verbal + Visual	结合单词和视觉姿势数据进行训练，每个意见段的单词和视觉特征被简单的concat起来。
Multimodal Dictionary	对单词和视觉姿势的联合进行训练。建立多模态字典，对每一个单词 $W_j$ 和姿势特征 $G_j$ ，将集合{( $W_j$ & $G_j$ ), ( $W_j$ & ~ $G_j$ )} 添加到多模态字典中。其中( $W_j$ & $G_j$ )表示单词和视觉姿势同时出现，如果他们都出现在语音片段中，则( $W_j$ & $G_j$ )值为1；( $W_j$ & ~ $G_j$ )表示仅单词出现，如果符合这种情况，则其值为1。
Human Baseline	人工预测每个意见段中的情绪得分。

结果如下表所示，创建的多模态词典优于简单的特征连接：

4.2 主观分析基线

通过线性C-SVM和DNN来进行主观分析实验。线性 C-SVM 超参数的验证方式与情感研究相同（第 4.1 节）。DNN是完全连接的网络，其层数在 [1, 5] 之间验证，每层中的神经元数量从 [10, 50] 以 10 为步长进行验证。表 4 显示了不同基线模型的结果多模态主观性分析:

5 讨论

在这里插入图片描述
表 3 显示了来自视觉手势的信息如何帮助多模态词典对情绪做出更准确预测的示例。
在第一种情况下，可以看出语言预测是中性的，而强烈的正面视觉线索有助于多模态词典更准确地预测意见的强度。
在第二种情况下，虽然语言暗示表明高度积极，但通过摇头表现出负面情绪表明该意见不应被视为高度积极。