Speech | 语音合成,语音识别常见数据集及数据格式详情

本文主要详细介绍了语音中最常见的数据集(包含各个语种),及其格式等~

目录

1.外语数据集

1.1.LJSpeech 单人

1.2.JSUT

1.3.RUSLAN

1.4.RyanSpeech

1.5.VocBench

1.6.Arabic Speech Corpus

1.7.Silent Speech EMG

1.8.Hi-Fi Multi-Speaker English TTS Dataset

1.9.KSS 单人

1.10.VCTK 多人

1.11.LibriTTS 多人

2.多任务数据集

2.1.ESD dataset

3.语音情绪识别数据集

3.1.IEMOCAP (The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database)

参考文献

REFERENCES

1.外语数据集

1.1.LJSpeech 单人

网址 : The LJ Speech Dataset (keithito.com)

数据集描述:

数据集大小:2.6GB

这是一个公共领域的语音数据集,由 13,100 个简短的音频剪辑组成 一位演讲者阅读 7 本非小说类书籍的段落。为每个剪辑提供转录。 剪辑的长度从 1 到 10 秒不等,总长度约为 24小时。

LGSpeech文件格式

数据集描述:

元数据在成绩单.csv中提供。此文件由一条记录组成 每行,由竖线字符 (0x7c) 分隔。这些字段是:

  1. ID:这是对应.wav文件的名称

  1. 转录:读者说出的单词 (UTF-8)

  1. 规范化转录:使用数字、序数和货币单位进行转录 扩展为完整单词 (UTF-8)。

每个音频文件都是一个单通道 16 位 PCM WAV,采样率为 22050 Hz。


总剪辑数    13,100
总字数    225,715
总字符数    1,308,678
总持续时间    23:55:17
平均剪辑持续时间    6.57 秒
最小剪辑持续时间    1.11 秒
最大剪辑持续时间    10.10 秒
每个剪辑的平均字数    17.23
不同的单词    13,821

 命令快速下载:wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2

下载后文件压缩包 : LJSpeech-1.1.tar.bz2

linux解压命令


tar -jxvf LJSpeech-1.1.tar.bz2

解压缩后,生成LJSpeech-1.1文件夹:.wav及csv文件

wavs格式如下

metadata格式如下(text文件)

1.2.JSUT

网址 :Shinnosuke Takamichi (高道 慎之介) - JSUT (google.com)

数据集描述:

数据集大小:2.7GB

该语料库由日语文本(转录)和阅读式音频组成。音频数据以48kHz采样并记录在消声室。录制了一位以日语为母语的女性的声音。此语料库包含 10 小时的语音,由以下数据组成:

  • 基本5000 ...涵盖所有日常使用字符(jouyou汉字)。

  • ut释义512 ...将句子的一部分替换为其释义。

  • 拟声词300 ...包括日语的拟声词(拟声词)。

  • 后缀26 ...日语的反后缀

  • 借词128 ...日语的外来词(例如,ググる [“谷歌”作为动词])

  • 声优100 ...对声优语料库的副演讲(专业女性演讲者的免费语料库

  • 旅行1000 ...旅行域语料库

  • 先例130 ...先例句

  • 重复500 ...重复口语(100句*5次)

1.3.RUSLAN

网址 :RUSLAN: Russian Spoken Language Corpus For Speech Synthesis

数据集描述:

RUSLAN 是用于文本到语音转换任务的俄语口语语料库。RUSLAN 包含 22,200 个带有文本注释的音频样本——一个人超过 31 小时的高质量演讲——就单个发言者的语音持续时间而言,是最大的带注释的俄语语料库之一。

1.4.RyanSpeech

网址 :Mohammad H. Mahoor, PhD

数据集描述:

RyanSpeech是用于研究自动文本到语音(TTS)系统的新语音语料库。公开可用的TTS语料库通常嘈杂,由多个说话者录制,或者没有高质量的男性语音数据。为了满足语音识别领域对高质量、公开可用的男性语音语料库的需求,我们设计并创建了 RyanSpeech。我们从现实世界的对话环境中衍生出RyanSpeech的文本材料,这些材料包含超过10个小时的专业男性配音演员的演讲,录制频率为44.1 kHz。这种语料库创建的设计和管道使RyanSpeech成为在实际应用中开发TTS系统的理想选择。为了为未来的研究、协议和基准提供基线,我们在 RyanSpeech 上训练了 4 个最先进的语音模型和一个声码器。结果显示,在我们的最佳模型中,平均意见得分(MOS)为3.36。我们已公开提供经过训练的模型以供下载。

1.5.VocBench

网址 :https://github.com/facebookresearch/vocoder-benchmark

数据集描述:

VocBench是一个为最先进的神经声码器的性能提供基准的框架。VocBench采用系统的研究方法,在一个共享的环境中评估不同的神经声码器,使它们之间能够进行公平的比较。

1.6.Arabic Speech Corpus

网址 :http://en.arabicspeechcorpus.com/

数据集描述:

数据集大小:1.5GB

该语音语料库是南安普敦大学Nawar Halabi博士工作的一部分。语料库是使用专业录音室用南黎凡特阿拉伯语(大马士革口音)录制的。使用此语料库合成语音作为输出,产生了高质量、自然的声音。

1.7.Silent Speech EMG

网址 :Silent Speech EMG | Zenodo

数据集描述:

无声和发声语音期间的面部肌电图记录。

这些数据在EMNLP 2020(https://arxiv.org/abs/2010.02960)的出版物“无声语音的数字发声”中进行了描述。

可以在 GitHub - dgaddy/silent_speech: Code for voicing silent speech from EMG. Official repository for the papers "Digital Voicing of Silent Speech" at EMNLP 2020 and "An Improved Model for Voicing Silent Speech" at ACL 2021. Also includes code for converting silent speech to text. 中找到用于处理此数据的代码。

每个数据样本有 5 个数据文件:{i}_emg.npy - 一个保存的大小为 (T, 8) 的 numpy 数组,带有原始 EMG 信号;{i}_audio.flac - 原始录音;{i}_audio_clean.flac - 降低背景噪音的音频;{i}_info.json - 包含额外信息的 JSON,例如读取的文本提示;{i}_button.npy - 包含设备按钮状态的 numpy 数组,通常未使用。请注意,某些样本并不代表实际数据点,而是用作参考肌电图或音频信号。这些示例在相关信息文件中标有“sentence_index:-1”。

https://arxiv.org/pdf/2010.02960.pdf

1.8.Hi-Fi Multi-Speaker English TTS Dataset

网址 :Hi-Fi Multi-Speaker English TTS Dataset

数据集描述:

该数据集是基于LibriVox的公共有声读物和古腾堡计划的文本。

Hi-Fi TTS数据集包含来自10个发言人的约291.6小时的语音,每个发言人至少有17小时的44.1kHz采样。

"Hi-Fi Multi-Speaker English TTS Dataset" Bakhturina, E., Lavrukhin, V., Ginsburg, B. and Zhang, Y., 2021: arxiv.org/abs/2104.01497.

1.9.KSS 单人

网址 :Korean Single Speaker Speech Dataset | Kaggle

数据集描述:

Korean Single speaker Speech Dataset(KSS),韩国女性语音合成数据集

1.10.VCTK 多人

论文

 Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten. in CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit

下载地址:CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

 文件格式:

 数据集描述:

VCTK 数据集包括 110 名具有不同口音的英语母语人士所说的语音数据。每个演讲者朗读大约400个句子,其中大部分是从报纸加上彩虹通道和识别说话者口音的引出段落中挑选出来的。彩虹段落和引出段落对于所有演讲者都是相同的。报纸文本摘自《先驱报》(格拉斯哥),经《先驱报》和时代集团许可。每个说话者阅读一组不同的报纸句子,每组都是使用贪婪算法选择的。

1.11.LibriTTS 多人

论文:LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech

论文地址:https://arxiv.org/pdf/1904.02882.pdf

数据下载:openslr.org

LibriTTS 是一个多说话者的英语语料库,由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的协助下编写,以 585kHz 采样率阅读约 24 小时的英语语音。 LibriTTS 语料库专为 TTS 研究而设计。它源自 LibriSpeech 语料库的原始材料(来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件)。 下面列出了与 LibriSpeech 语料库的主要区别:

  1. 音频文件以 24kHz 采样率。
  2. 演讲在句子中断时分开。
  3. 包括原始文本和规范化文本。
  4. 可以提取上下文信息(例如,相邻句子)。
  5. 具有明显背景噪音的话语被排除在外。

2.多任务数据集

多任务数据集表示数据集可在多任务下使用,例如语音合成,语音识别,情绪声音克隆,语音情绪识别等等

2.1.ESD dataset

官网:Emotional Voice Conversion: Theory, Databases and ESD (hltsingapore.github.io)

 [2]数据包含了中文和英文,共20个演讲者,每个演讲者都包含5个情绪,每个情绪包含350个语音文件,

通过google 云端硬盘下载(下载地址

文本文件,包含语音文件名称,语音文本,情绪标签。

3.语音情绪识别数据集

3.1.IEMOCAP (The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database)

IEMOCAP(交互式情感二元运动捕捉 (IEMOCAP) 数据库)

多模态情绪识别IEMOCAP IEMOCAP 数据集包含 151 个录制对话的视频,每个会话有 2 个演讲者,整个数据集中共有 302 个视频。每个片段都标注了 9 种情绪(愤怒、兴奋、恐惧、悲伤、惊讶、沮丧、快乐、失望和中性)以及效价、唤醒和支配。数据集记录了 5 个会话,有 5 对说话者。

参考文献

REFERENCES

[1]C. Veaux, J. Yamagishi and S. King, "The voice bank corpus: Design, collection and data analysis of a large regional accent speech database," https://doi.org/10.1109/ICSDA.2013.6709856.

[2] Kun Zhou, Berrak Sisman, Rui Liu, and Haizhou Li, “Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset,” in ICASSP. IEEE, 2021, pp. 920–924.

  • 9
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: PaddleSpeech是一个基于飞桨深度学习框架的语音识别开发工具。在训练自定义数据集之前,需要进行数据的预处理,可以将音频数据转化为Mel频谱特征图,并提取相应的标签信息。然后,可以使用PaddleSpeech提供的数据加载方法将数据载入模型中进行训练。 在训练过程中,需要根据训练情况进行调参,并且要注意过拟合、欠拟合和梯度消失等问题。若训练过程缺乏泛化性,可以采用数据增强方法及时更新模型的泛化能力。 最终,通过迭代训练及调整模型参数,得到了适用于自定义数据集的最佳模型。可以使用该模型对新的音频数据进行分类或识别。需要注意的是,模型的性能将受到数据集规模大小及数据质量的影响。数据量越大,质量越高,模型的准确性将越高。 总之,PaddleSpeech提供一个基于深度学习的语音识别开发框架,可以方便地训练自定义数据集,训练方法需要注意调参及数据增强等细节,最终得到的模型将根据数据的质量以及大小产生巨大的影响。 ### 回答2: PaddleSpeech 是百度 paddlenlp 库中的一个语音处理模块,它提供了基于 PaddlePaddle 的语音识别语音合成能力。我们可以利用 PaddleSpeech 进行自定义数据集的训练。 首先,需要准备自己的数据集。这些数据集可以是自己录制的语音文件,也可以是公共语音数据集。在这里,我们可以使用 PaddleSpeech 提供的 LibriSpeech 数据集进行训练。 然后,我们需要将这些数据预处理成适合模型训练的格式。这包括数据标注、数据切割、声学特征提取等过程。PaddleSpeech 提供了一系列的数据处理接口,可以方便地进行数据预处理。 接着,我们需要选择合适的模型进行训练。PaddleSpeech 提供了多种语音识别模型,包括 DeepSpeech2 和 Transformer 等。我们可以根据自己的需求选择合适的模型。 最后,我们可以利用 PaddleSpeech 提供的训练脚本进行模型训练。在训练过程中,我们可以根据实际情况调整训练参数,如学习率、批大小等。训练完成后,我们可以利用训练好的模型进行语音识别任务的测试或部署。 总之,利用 PaddleSpeech 进行自定义数据集的训练可以帮助我们更好地解决实际问题,提高语音识别的准确率和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏天|여름이다

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值