部分语音情感识别数据集解析(EMO-DB,RAVDESS,SAVEE)

  1. EMO-DB:
    1. 德语,10 个人(5 名男性,5 名女性)的大约 500 个音频,表达了 7 种不同的情绪(倒数第二个字母表示情绪类别):N = neutralW = angryA = fearF = happyT = sadE = disgustL = boredom
    2. 文件名每个字母的对应:
      1. 有一些版本可能还有第7个letter,暂时不清楚含义,但也应该没有太大作用。
      2. positon 6 对应 情感:
        W:anger
        L:boredom
        E:disgust
        A:anxiety/fear
        F:happiness
        T:sadness
        N:neutral version

      3. Positions 3-5 对应的语音内容(Code of texts,此处写出的是由语音中的德语转为了英语):
        a01 the tablecloth is lying on the frigde.
        a02 she will hand it in on wednesday.
        a04 tonight I cound tell him.
        a05 the black sheet of paper is located up there besides the piece of timber.
        a07 in seven hours it will be.
        b01 what about the bags standing there under the table?
        b02 they just carried it upstairs and now they are going down again.
        b03 currently at the weekends i always went home and saw agnes.
        b09 i will just discard this and then go for a drink with karl
        b10 it will be in the place where we always store it.
        
      4. Positions 1-2 对应的人的性别及年龄,Information about the speakers:
        03 - male, 31 years old
        08 - female, 34 years
        09 - female, 21 years
        10 - male, 32 years
        11 - male, 26 years
        12 - male, 30 years
        13 - female, 32 years
        14 - female, 35 years
        15 - male, 25 years
        16 - female, 31 years
  2. RAVDESS:文件名由 7 部分数字标识符组成(例如,02-01-06-01-02-01-12.mp4)。这些标识符定义了刺激特征:
    1. 文件名标识符
      1. Modality (01 = full-AV, 02 = video-only, 03 = audio-only).
      2. Vocal channel (01 = speech, 02 = song).
      3. Emotion (01 = neutral, 02 = calm, 03 = happy, 04 = sad, 05 = angry, 06 = fearful, 07 = disgust, 08 = surprised).
      4. Emotional intensity (01 = normal, 02 = strong). NOTE: There is no strong intensity for the 'neutral' emotion.
      5. Statement (01 = "Kids are talking by the door", 02 = "Dogs are sitting by the door").
      6. Repetition (01 = 1st repetition, 02 = 2nd repetition).
      7. Actor (01 to 24. Odd numbered actors are male, even numbered actors are female).
    2. 文件名示例:02-01-06-01-02-01-12.mp4
      1. Video-only (02)
      2. Speech (01)
      3. Fearful (06)
      4. Normal intensity (01)
      5. Statement "dogs" (02)
      6. 1st Repetition (01)
      7. 12th Actor (12)
      8. Female, as the actor ID number is even
    3. 英文,24 个人(12 名男性,12 名女性)的大约 1500 个音频,表达了 8 种不同的情绪(第三位数字表示情绪类别):01 = neutral02 = calm03 = happy04 = sad05 = angry06 = fearful07 = disgust08 = surprised
  3. SAVEE
    1. Speaker:“DC”、“JE”、“JK”和“KL”是为SAVE数据库记录的四位男性演讲者
    2. Audio data:
      1. 音频文件由以44.1 kHz采样的WAV音频文件组成
      2. 7种情绪类别中的每一种都有15个句子。
      3. 文件名的首字母表示情感类别,后面的数字表示句子编号。
      4. The letters 'a', 'd', 'f', 'h', 'n', 'sa' and 'su' represent 'anger', 'disgust', 'fear', 'happiness', 'neutral', 'sadness' and 'surprise' emotion classes respectively. 
      5. E.g., 'd03.wav' is the 3rd disgust sentence. 
EmoDBSAVEE是两个专门用于情感语音识别(Emotion Recognition from Speech)研究的知名数据集,它们提供了丰富的情感语音样本,用于训练和评估语音情感分析系统。在使用这些数据集进行预处理时,通常会涉及以下几个步骤: 1. **音频预处理**: - **采样率调整**:确保所有录音的采样率一致,可能需要将不同来源的音频转换为统一标准,比如16kHz或44.1kHz。 - **降噪**:去除背景噪音,使用降噪算法如Wiener滤波器、谱减法等。 - **分段和裁剪**:将长音频分割成短片段,通常每个片段对应特定的情感标签。 2. **特征提取**: - **MFCCs (Mel Frequency Cepstral Coefficients)**:计算梅尔频率倒谱系数,这是音频信号的常用特征表示,能够捕捉到声音的频率和能量变化。 - **PLPs (Perceptual Linear Predictions)** 或其他时域或频域特征,如梅尔滤波器组(MFB)、线性预测编码(LPC)等。 - ** prosodic features**:如语调、响度、停顿时间等。 3. **标注处理**: - **情感标签标准化**:如果标签是多级或非结构化的,可能需要将其转换为预定义的情感类别,如愤怒、快乐、悲伤等。 - **标签编码**:将文本标签转化为数值或one-hot编码便于机器学习模型处理。 4. **分割与平衡**: - 对不同情感类别的样本进行平衡,避免训练过程中某类数据过少导致模型偏向。 5. **数据划分**: - 划分训练集、验证集和测试集,通常使用交叉验证方法确保结果的稳定性。 6. **保存和格式化**: - 将预处理后的数据集存储为合适的格式,如CSV、numpy数组或专门用于深度学习的TensorFlow或PyTorch数据集。 如果你打算使用这些数据集,可能还需要对具体的技术栈(如使用哪种工具库,如Librosa、Kaldi或PyTorch的torchaudio)有深入的了解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值