部分语音情感识别数据集解析(EMO-DB,RAVDESS,SAVEE)

  1. EMO-DB:
    1. 德语,10 个人(5 名男性,5 名女性)的大约 500 个音频,表达了 7 种不同的情绪(倒数第二个字母表示情绪类别):N = neutralW = angryA = fearF = happyT = sadE = disgustL = boredom
    2. 文件名每个字母的对应:
      1. 有一些版本可能还有第7个letter,暂时不清楚含义,但也应该没有太大作用。
      2. positon 6 对应 情感:
        W:anger
        L:boredom
        E:disgust
        A:anxiety/fear
        F:happiness
        T:sadness
        N:neutral version

      3. Positions 3-5 对应的语音内容(Code of texts,此处写出的是由语音中的德语转为了英语):
        a01 the tablecloth is lying on the frigde.
        a02 she will hand it in on wednesday.
        a04 tonight I cound tell him.
        a05 the black sheet of paper is located up there besides the piece of timber.
        a07 in seven hours it will be.
        b01 what about the bags standing there under the table?
        b02 they just carried it upstairs and now they are going down again.
        b03 currently at the weekends i always went home and saw agnes.
        b09 i will just discard this and then go for a drink with karl
        b10 it will be in the place where we always store it.
        
      4. Positions 1-2 对应的人的性别及年龄,Information about the speakers:
        03 - male, 31 years old
        08 - female, 34 years
        09 - female, 21 years
        10 - male, 32 years
        11 - male, 26 years
        12 - male, 30 years
        13 - female, 32 years
        14 - female, 35 years
        15 - male, 25 years
        16 - female, 31 years
  2. RAVDESS:文件名由 7 部分数字标识符组成(例如,02-01-06-01-02-01-12.mp4)。这些标识符定义了刺激特征:
    1. 文件名标识符
      1. Modality (01 = full-AV, 02 = video-only, 03 = audio-only).
      2. Vocal channel (01 = speech, 02 = song).
      3. Emotion (01 = neutral, 02 = calm, 03 = happy, 04 = sad, 05 = angry, 06 = fearful, 07 = disgust, 08 = surprised).
      4. Emotional intensity (01 = normal, 02 = strong). NOTE: There is no strong intensity for the 'neutral' emotion.
      5. Statement (01 = "Kids are talking by the door", 02 = "Dogs are sitting by the door").
      6. Repetition (01 = 1st repetition, 02 = 2nd repetition).
      7. Actor (01 to 24. Odd numbered actors are male, even numbered actors are female).
    2. 文件名示例:02-01-06-01-02-01-12.mp4
      1. Video-only (02)
      2. Speech (01)
      3. Fearful (06)
      4. Normal intensity (01)
      5. Statement "dogs" (02)
      6. 1st Repetition (01)
      7. 12th Actor (12)
      8. Female, as the actor ID number is even
    3. 英文,24 个人(12 名男性,12 名女性)的大约 1500 个音频,表达了 8 种不同的情绪(第三位数字表示情绪类别):01 = neutral02 = calm03 = happy04 = sad05 = angry06 = fearful07 = disgust08 = surprised
  3. SAVEE
    1. Speaker:“DC”、“JE”、“JK”和“KL”是为SAVE数据库记录的四位男性演讲者
    2. Audio data:
      1. 音频文件由以44.1 kHz采样的WAV音频文件组成
      2. 7种情绪类别中的每一种都有15个句子。
      3. 文件名的首字母表示情感类别,后面的数字表示句子编号。
      4. The letters 'a', 'd', 'f', 'h', 'n', 'sa' and 'su' represent 'anger', 'disgust', 'fear', 'happiness', 'neutral', 'sadness' and 'surprise' emotion classes respectively. 
      5. E.g., 'd03.wav' is the 3rd disgust sentence. 
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要将CK+数据集的图片大小改为224*224,需要经过以下步骤: 1. 首先,需要安装Python的图像处理库Pillow。可以使用以下命令安装: ``` pip install Pillow ``` 2. 然后,需要编写Python代码来读取CK+数据集中的图片,并将它们的大小改为224*224。可以使用以下代码: ```python from PIL import Image import os # 设置原始图片路径和新图片路径 original_path = 'CK+数据集的原始路径' new_path = 'CK+数据集的新路径' # 循环遍历原始图片路径中的所有图片 for filename in os.listdir(original_path): # 读取原始图片 image = Image.open(os.path.join(original_path, filename)) # 将图片大小改为224*224 image = image.resize((224, 224)) # 保存新图片 image.save(os.path.join(new_path, filename)) ``` 在上面的代码中,需要将“CK+数据集的原始路径”和“CK+数据集的新路径”替换为实际的路径。然后,代码会循环遍历原始图片路径中的所有图片,将它们的大小改为224*224,并保存到新的路径中。 3. 运行代码,等待处理完所有图片即可。处理完毕后,就可以使用新路径中的图片进行模型训练等操作了。 ### 回答2: 将CK数据集的图片大小改为224*224可以通过以下步骤实现: 首先,需要加载CK数据集并遍历所有图片。 接下来,对每一张图片进行尺寸调整。可以使用Python中的图像处理库PIL(Pillow)来完成这个任务。首先,使用PIL中的`Image.open()`函数打开图片文件,然后使用`resize()`函数将图片的尺寸调整为224*224。最后,保存调整后的图片。 以下是一个示例代码: ```python from PIL import Image import os # 定义数据集路径 dataset_path = 'path_to_ck_dataset' # 遍历数据集中所有的图片文件 for dirpath, dirnames, filenames in os.walk(dataset_path): for filename in filenames: # 获取图片文件路径 image_path = os.path.join(dirpath, filename) # 读取图片 image = Image.open(image_path) # 将图片尺寸调整为224*224 resized_image = image.resize((224, 224)) # 保存调整后的图片 resized_image.save(image_path) ``` 以上代码将CK数据集中的所有图片尺寸调整为224*224,并覆盖保存原始图片。在运行代码之前,请确保已经安装了PIL库。 ### 回答3: 将ck数据集图片大小改为224*224可以通过使用图像处理库来实现,常用的库有opencv-python和PIL(Python Imaging Library)。 使用opencv-python库的方法如下: 1. 导入必要的库: ```python import cv2 import os ``` 2. 遍历ck数据集的图片文件夹,对每张图片进行处理: ```python data_dir = "ck_dataset" # ck数据集所在的文件夹路径 for emo_dir in os.listdir(data_dir): emo_dir_path = os.path.join(data_dir, emo_dir) for img_file in os.listdir(emo_dir_path): img_path = os.path.join(emo_dir_path, img_file) img = cv2.imread(img_path) # 读取图片 img_resized = cv2.resize(img, (224, 224)) # 调整图片大小为224*224 cv2.imwrite(img_path, img_resized) # 保存调整大小后的图片 ``` 使用PIL库的方法如下: 1. 导入必要的库: ```python from PIL import Image import os ``` 2. 遍历ck数据集的图片文件夹,对每张图片进行处理: ```python data_dir = "ck_dataset" # ck数据集所在的文件夹路径 for emo_dir in os.listdir(data_dir): emo_dir_path = os.path.join(data_dir, emo_dir) for img_file in os.listdir(emo_dir_path): img_path = os.path.join(emo_dir_path, img_file) img = Image.open(img_path) # 读取图片 img_resized = img.resize((224, 224)) # 调整图片大小为224*224 img_resized.save(img_path) # 保存调整大小后的图片 ``` 以上方法可以将ck数据集的所有图片大小改为224*224。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值