train-clean-100 数据集

LibriSpeech :

是一个阅读语音语料库,基于 LibriVox 的公共领域有声读物。 其目的是实现自动语音识别 (ASR) 系统的训练和测试。

语料库被分成几个部分,以使用户能够根据自己的需要有选择地下载它的子集。 名称中带有“clean”的子集被认为比其他音频和美国英语口音更“干净”(至少平均而言)。 该分类是使用非常粗糙的自动化手段获得的,不应被认为是完全可靠的。 子集是不相交的,即每个说话者的音频都被分配给一个子集。

语料库的架构如下所示:

* dev-clean, test-clean - 包含“干净”语音的开发和测试集。

* train-clean-100 - 训练集,大约 100 小时的“干净”语音
* train-clean-360 - 训练集,大约 360 小时的“干净”语音

* dev-other, test-other - 开发和测试集,语音被自动选择为更具“挑战性”的识别

* train-other-500 - 大约 500 小时的训练集,包含未被归类为“干净”的语音

* intro - subset  仅包含一些读者的 LibriVox 介绍免责声明的子集

* mp3  - 语料库所基于的原始 MP3 编码音频

* texts - 语料库中音频所对应的文本

1. train-clean-100数据集的架构:

其中:

【19】:说话者的ID

【198/227】:说话者阅读的文章的章节

【*.trans.txt】:包含来自相应章节的文本,而 FLAC 文件为每个章节的语音。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值