1. MOSI (Multimodal Opinion-level Sentiment Intensity)
-
简介: MOSI是一个多模态情感分析数据集,包含93个视频片段,每个片段都有多个模态的数据:文本(转录)、音频和视觉(面部表情等)。
-
数据来源: 视频片段来自YouTube,主题涵盖电影评论。
-
标注: 每个片段的标注包括情感极性和情感强度,情感极性分为正面、负面和中性,情感强度是一个连续值,范围从-3(非常负面)到+3(非常正面)。
-
应用: MOSI广泛用于多模态情感分析、情感强度预测等任务。
2. MOSIE (Multimodal Opinion Sentiment and Emotion Intensity)
-
简介: MOSIE是MOSI的扩展版本,增加了更多的情感类别和更细粒度的标注。
-
数据来源: 同样来自YouTube的电影评论视频片段。
-
标注: 除了情感极性和强度外,MOSIE还标注了更具体的情感类别,如愤怒、悲伤、快乐等,情感强度也是一个连续值。
-
应用: MOSIE用于更复杂的情感分析任务,如多模态情感分类、情感强度预测和情感类别识别
3. Emotion Lines
- 简介:是一个用于情感分析和对话情感理解的数据集,专注于捕捉对话中的情感变化。它旨在帮助研究对话系统中的情感识别和情感动态建模。
- 数据来源:Emotion Lines 数据集是从电视剧剧本和开放域对话中收集的。
包含两部分: Friends:来自经典美剧《老友记》(Friends)的对话。
EmotionPush:来自社交媒体平台(如Facebook Messenger)的真实对话。
规模:总共包含 29,245 条对话语句。
每条语句都标注了情感标签。
-
情感标签: 数据集使用 6 种基本情感类别(基于Ekman的情感分类):快乐(Happy),悲伤(Sad),愤怒(Angry),惊讶(Surprise),恐惧(Fear),厌恶(Disgust),还包括一个 中性(Neutral) 标签。
-
特点:数据集不仅标注了单句情感,还保留了对话的上下文信息,便于研究情感在对话中的动态变化。
-
结构:每条数据包括:对话上下文(前几句话),目标语句(需要标注情感的句子),情感标,说话者信息。