VAM语料库--学习笔记

最新推荐文章于 2024-10-10 07:52:52 发布

Wsyoneself

最新推荐文章于 2024-10-10 07:52:52 发布

阅读量1.7k

点赞数 1

分类专栏： dataset 文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45647721/article/details/127175427

版权

dataset 专栏收录该内容

10 篇文章

订阅专栏

VAM语料库是从德国电视脱口秀节目“Vera am Mittag”（中午的Vera）的12小时录音中提取的。这些录音被分割成广播、对话表演和话语。视听演讲语料库包含从脱口秀嘉宾之间无脚本的真实讨论中录制的自发和情感演讲。从事自发语音分析、情感识别、语音和面部表情、自然语言理解和鲁棒语音识别的研究小组可能会对这些数据感兴趣。语言学家对数据中存在的各种德国区域口音的看法可能会产生进一步的兴趣。
情感标签：除了视听数据和分段话语之外，还为大部分数据提供情感标签。情绪标签以连续值的尺度给出三个情绪原语：价态（积极与消极），激活（平静与兴奋）和支配（弱与强）。几个人工评估人员分别进行了评估。作为一种方法，使用自我评估模型（见出版物）。
VAM视频：对赌视频语料库包含12个广播（节目）的视听信号。78 个话语（5 个扬声器）的其余子集共享为 352x288 像素、25 fps 的 mpg 文件。
VAM-音频:语料库的这一部分仅包含音频信号。VAM-Audio 语料库中总共包含 947 个语音。数据按 47 个独立说话人（11m/36f）进行组织。对于每个说话者，数据以句子的形式进行子结构。由于数据的来源，每个说话者的数据量不同：从4到46个话语。对于每个句子，提供一个 wav 文件。wav文件以16 kHz采样率和16位分辨率录制为立体声信号。情绪由几个独立的人类评估者评估：17名评估者分别用于脱口秀说话人1-19，6名评估者用于说话人20-47。提供每个评估员的评估（*.eva 文件）。此外，还提供了融合的情绪评估结果（*.ewe文件）。为了区分由大量评估员标记的第一组录音和第二组录音，建议将说话人1-19的话语称为“VAM-Audio I”，其余的称为“VAM-Audio II”。VAM 音频的文档集大小为 177 MB。
VAM-face:语料库的这一部分包含 VAM 视频语料库中说话人的提取面部图像。语料库包含从 VAM 视频语料库的视听语音记录中提取的 1867 张面部图像。数据是按 20 个说话人的子集按说话人组织的。对于每个句子，提供了几个面部图像作为png文件。图像的分辨率为 352x288 像素。情感内容使用情感原始标签价态，激活和支配（*.eva文件）进行标记。此外，还给出了情感类别标签（*.cat文件）。磁盘上的文档集大小为 255 MB。
更多信息可参考以下两篇论文：
1. https://www.sciencedirect.com/science/article/pii/S0167639307000040?via%3Dihub
2. The Vera am Mittag German audio-visual emotional speech database | IEEE Conference Publication | IEEE Xplore

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。