情感常用数据集整理_情感数据集-CSDN博客

本文链接：https://blog.csdn.net/weixin_43765589/article/details/132319745

本文介绍了CMU-MOSEI，一个大规模的三模态数据集，包含文本、视频和音频，用于情感和情绪分析。此外，文中概述了其他相关数据集如MOUD、ICTMMMO、IEMPCAP等，它们各具特色，涉及YouTube视频、电影评论、表情识别等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CMU-MOSEI

CMU-MOSI为规模最大的三模态数据集，且具有情感和情绪两个标签。
模态： 文本、视频、音频
数据采集方式：YouTube的独白视频，和CMU-MOSI类似，均为正脸
情感标签： negative到positive一共有7个类别
Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive
情绪标签： 高兴，悲伤，生气，恐惧，厌恶，惊讶
数据集大小： 包含3228个视频，23453个句子，1000个讲述者，250个话题，总时长达到65小时（平均单个视频时长为0.02小时）

CMU-MOSI

模态：文本、视频、音频
数据采集方式：YouTube的独白视频，均为正脸。
情感标签：总共七个标签，为[-3,3]，具体为：
Highly Negative、Negative、Weakly Negative、Neutral、Weakly Positive、Positive、Highly Positive
数据集大小：93个视频，89个讲述者，41个女性讲者和48名男性讲者。年龄大多在20到30岁之间。最终从93个视频中选择了2199个视频片段，总计约50小时
数据集使用指南：https://blog.csdn.net/Bourne___1/article/details/114480999

Youtube

Youtube数据集中视频的形式是单个演讲者面对镜头讲述观点，总共包含20名女性，27名男性讲述者，年龄大约在14-60岁之间，来自不同的种族背景。
数据采集方式：YouTube的独白视频，均为正脸
模态：视频，文本，音频
情感标签：positive、neutural、negative
数据集大小：一共有47个视频

MOUD

数据采集方式：YouTube上的产品评论的视频（西班牙语），均为正脸
模态：视频，文本，音频
情感标签：positive、neutural、negative
数据集大小：一共有80个视频

ICTMMMO

视频形式是一个人直接对着摄像机说话，表达他们的对于电影的评论或陈述与特定电影相关的事实。
数据采集方式：YouTube和ExpoTV上的关于电影评论的视频
模态：视频，文本，音频
情感标签：positive、neutural、negative
数据集大小：一共有370个视频

IEMPCAP

IEMOCAP共包含了5个男演员和5个女演员录制的情感互动过程，录制时长大约12h
模态：视频、音频、动作捕捉（包括头部运动、面部表情、手势）、对话（文本）
数据采集方式：在封闭环境中引导受试者表演剧本（部分包含固定脚本，部分只固定主题）
离散情感标签：总共有十个情感标签，分别为：中性，幸福，悲伤，愤怒，惊讶，恐惧，厌恶，挫败感，兴奋，其他
维度情感标签：依赖 PAD
数据集大小：音视频的总时长约12个小时
语音包含了共12小时的会话语音录音,采样率16kHz,单声道,wav格式。
视频被分割为109,574个片段,平均每个片段时长约3秒，分辨率为480x640，avi格式,RGB颜色,约10TB的数据量
对话共10039轮（脚本会话：5255 轮；自发会话：4784 轮）

UR_FUNNY

数据采集方式：TED演讲（可视为半开放环境）
模态：文本、音频和视频
情感标签：humer & non-humer
数据集大小：1866个TED英文演讲的视频及它们的字幕，包含了1741个演讲者和417个话题。共8257个幽默片段与8257个非幽默片段。

CH-SIMS

该数据集包含了2281个经过精炼的视频片段，来自不同电影、电视连续剧和综艺节目的自发表情、各种头部姿势、遮挡和照明，并且同时具有多模态和独立的单模态注释。
数据采集方式：来自不同电影、电视连续剧和综艺节目的视频
模态：文本、视频、音频
情感标签：五分类：Weakly Positive、Positive、Neutral、Weakly Negative、Negative
数据集大小：共2,281个视频片段

MELD

MELD数据集源于EmotionLines数据集，后者是一个纯文本的对话数据集，来自于经典的电视剧老友记。
数据采集方式：来自经典电视剧老友记
模态：视频，文本，音频
情感标签：Anger, Disgust, Sadness, Joy, Neutral, Surprise、Fear（同时也有：positive, negative 、neutral）
数据集大小：最终的数据集包含13709个片段

MUStARD

MUStARD数据集，是一个多模态视频语料库，用于研究自动讽刺发现。MUStARD 由带有讽刺标签注释的视听话语组成。每个话语都是附带其上下文，提供有关发生话语的方案的其他信息。
数据采集方式：数据集由热门电视节目汇编而成，包括《老友记》、《黄金女孩》、《生活大爆炸》和《匿名讽刺狂》
模态：视频，文本，音频
标签：sarcasm、not sarcasm

MEAD

MEAD 是一个包含60名演员在3个不同强度等级下与8种不同情绪的人进行对话的面对面视频语料库。
数据采集方式：演员在严格控制的环境下，通过七个不同视角捕捉演员对话时的表情及头部姿态信息
包含了情绪和强度两种标签，同时还包含头部姿态信息
强度标签为：weak、medium、strong
情感标签为：Anger、Disgust、Contempt、Fear、Happy、Sad、Surprise、Neutra

AFEW

AFEW是一个从电影场景中进行剪辑的包含多重标签的语料库
数据采集方式：从电影中剪辑包含表情的视频片段，每一帧画面可能存在多个标注对象
情感标签为：Anger、Disgust、Fear、Sad、Happy、Surprise、Neutral
数据集大小：用于Emotion Recognition In The Wild Challenge (EmotiW) 中音视频竞赛的一个数据集，这个项目从2013至2019每年都在进行，数据集也从最初的1400+个序列增加到后面的1800+个序列

IMIGUE

IMIGUE 是一个用于微手势理解和情感分析的无身份视频数据集，共有359个视频。
所有样本来自于359个大满贯赛事赛后新闻发布会的视频
情感标签为：Positive、Negative

LIRIS-ACCEDE

LIRIS-ACCEDE 由从160部电影中提取的9800个高质量的视频片段组成，是维度情感数据库
情感标签依据：PAD维度情感模型

CAER-S

CAER-S是一个探索上下文感知表达的新数据集，包含70000张情感图片
数据采集方式：截取79部电视剧中一些片段
情感标签为：Surprised、Fearful、Disgusted、Happy、Sad、Angry、Neutral
数据集大小：总共13201个视频序列，每个序列长度约为90帧

FER+

FER+是原始 FER 数据集的扩展，为面部表情识别提供了更好的 ground truth
数据采集方式：来自网络的表情图片
情感标签为：Neutral、Happiness、Surprise、Sadness、Anger、Disgust、Fear、Contempt
数据集大小：由35886张人脸表情图片组成，每张图片是由大小固定为48×48的灰度图像组成

RAF-DB

RAF-DB数据集是一个大规模面部表情数据库，其主要标签是Expression，包含单标签（7类基本情绪）和双标签（12类符合情绪）。此外还有Gender、Race、Age等标签。
数据采集方式：来自网络的 29672 张多样化的面部图像
情感标签为：Surprised、Fearful、Disgusted、Happy、Sad、Angry、Neutral
数据集大小：包含大约3万张面部图像。

SFEW

SFEW数据集是从 AFEW数据集中抽取的含有表情的静态帧，表情标签、注释同AFEW
情感标签为：Anger、Disgust、Fear、Sad、Happy、Surprise、Neutral
数据集大小：用于Emotion Recognition In The Wild Challenge (EmotiW) 中音视频竞赛的一个数据集，这个项目从2013至2019每年都在进行，数据集也从最初的1400+个序列增加到后面的1800+个序列

AffectNet

AffectNet是迄今为止最大的FER数据集，包含45万张图像。除了具体的情感标签外，还包含None、Non-face、Uncertain标签
数据采集方式：采集自互联网
情感标签为：Neutral、Happiness、Surprise、Sadness、Anger、Disgust、Fear、Contempt
数据集大小：包含45万张图像

CK+

CK+数据库是在 Cohn-Kanade Dataset 的基础上扩展来的，包含表情的label和Action Units 的label。CK+数据集中每种表情是一组序列（总共有593个图像序列，其中327个序列是有表情标签的）：从自然缓慢变化到给定表情
数据采集方式：123位参与者在实验室条件下摆拍指定表情获得
情感标签为：neutral、anger、contempt、disgust、fear、happy、sadness、surprise
数据集大小：593个视频序列，分辨率640490或者640480，基于图片的人脸表情识别中常常取最后几帧作为样本

ULM-TSST

ULM-TSST 是一个多模态的(即声学的、视觉的、文本的和生物的)数据集，
数据采集方式：原始数据记录在一个工作面试情境中，每个参与者，年龄在18到39岁之间，被要求进行5分钟的自由演讲口头陈述。（我认为可以看作是半开放环境）
情感标签：维度情感标签依赖valence-arousal情感模型
数据集大小：一共69个短片，共5 :47 :27

SEND

该数据集由人们讲述重要和情感生活故事的视频片段组成。
数据采集方式：这些视频是在没有背景的情况下以面孔为中心的环境中录制的。
情感标签：维度情感标签依赖valence-arousal情感模型
评价指标：一致性相关系数( CCC )

MovieGraphs

MovieGraphs数据集由7637个电影片段组成，这些电影片段被注释为图，这些图表示谁在每个片段中，角色之间的相互作用，他们之间的关系，以及各种可见和推断的属性，例如某些相互作用背后的原因。每个片段还标注了情境标签、场景标签(情境发生的地方)和自然语言描述。
数据采集方式：电影片段剪辑
情感标签：26类

LIRIS-ACCEDE

数据采集方式：该数据集包含来自160部专业制作和业余电影的视频。
情感标签：维度情感标签依赖valence-arousal情感模型
评价指标：均方误差( MSE )（维度情感标签）

MMI

数据采集方式：32位参与者在实验室条件下摆拍指定表情获得
情感标签：开心、悲伤、惊讶、害怕、厌恶、生气、中立；AU；时序状态（表情开始帧–>峰值帧–>结束帧，onset–>apex–>offset）
数据集大小：2900个视频以及740张图片，分辨率 720*576像素

Oulu-CASIA

数据采集方式：80位参与者在实验室三种光线条件下通过两种不同拍摄方式（近红外和可见光）获得
情感标签：开心、悲伤、惊讶、害怕、厌恶、生气
数据集大小：共2880个视频序列，分辨率320*240，最后几帧为峰值帧

RaFD

RaFD是一个高质量的脸部数据库每一个表情，包含3个不同的注视方向，且使用5个相机从不同的角度同时拍摄的
数据采集方式：实验室环境中摆拍
情感类别：neutral、anger、contempt、disgust、fear、happy、sadness、surprise
数据集大小：包含67名受试者的图像，总共8040张图

FEC Dataset

FEC数据集为论文 A Compact Embedding for Facial Expression Similarity 自建数据集
数据集里的每一样本，包含三张图片和一个标签，L={1,2,3},1代表相比于图片1，2,3两张图片看起来更像，以此类推。数据集并没有指定anchor，但是提供了两个注释，I 2 is closer to I 3 than I 1 , and I 3 is closer to I 2 than I 1。
FI
数据采集方式：从Flickr和Instagram上搜索Mikel’s eight emotions得到
情感标签：Amusement、Awe、Contentment、Excitement、Anger、Disgust、Fear、Sadness
数据集大小：共23308张图片

SE30K8

情感标签：anger, happiness, surprise, disgust, sadness, fear, neutral, surprise-positive, and surprise-negative
数据集大小：共33000张图片

FlickerLDL、TwitterLDL

论文为验证自己的模型构造的数据集，只有图片及对应的情绪标签。
数据采集方式：FlickerLDL中的数据来源于原本的Flicker数据集，TwitterLDL数据集中的数据是从Twitter上下载得到
情感标签：Amusement、Awe、Contentment、Excitement、Anger、Disgust、Fear、Sadness
数据集大小：TwitterLDL 数据集 10045 条数据FlickrLDL 是 Flickr的子集有 11,150 条数据