20180528 timit数据集下载地址

可以从下面链接下载timit数据集的一部分,总共应该600多兆,这里只有40多兆,只有一部分也可以。我们可以看看格式。这里只有38个说话人,也就是38个文件夹。
https://download.csdn.net/download/weixin_41864878/10585377

TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。

给定的10个句子中,包括:

  • 2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
  • 5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。
  • 3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的Brown 语料库(theBrown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。
    在这里插入图片描述

这里只有38个说话人,也就是38个文件夹。每个文件夹都各有50个文件,也就是
*.PHN 文件,10个
*.WAV 文件,10个
*.wav 文件,10个
*.WRD 文件,10个,
*.TXT 文件,10个,表示每个人都说了10句话,上面已经介绍了10个句子都是啥。
以上文件都可以用notepad++打开看。

原始的timit数据集好像没有小写wav文件,应该是作者帮我们转好了吧。那就先说下大写WAV文件和小写的wav文件有什么不同。大写WAV文件是NIST sphere格式的波形文件。是一种无损的音频文件格式。具体可自己查。好像就是传统的读法会出错,不管是用python的wave还是 scipy.io中的wavfile,在读取TIMIT的原始WAV时都会报错。但转换格式后的小写wav就可以。参考:https://www.cnblogs.com/JJJanepp/p/10432254.html
在这里插入图片描述
打开一个*.phn文件是这个样子(后缀名一般不分大小写啊),这个是音素级别的对应。
数字暂时不知道什么意思,但可以肯定的是,0到3050之间是静音,3050到4559之间发的音是音素sh,4559到5723之间发的音是音素ix。

以下都是猜测:假如一段1秒的声音在电脑中存储的都是数字,假设这段语音共有46720个数字,第0个数字到第3050个数字之间保存的数字都表示静音?第3050到4559个数字之间保存的数字都表示音素sh?
在这里插入图片描述
打开一个*.WAV文件是这个样子,这就是具体的声音文件,可以看到,这种NIST文件的头部包含了很多很多的格式信息。具体为啥有些,肯定是有一个标准文件统一规定的,好像是八几年微软出的,我记得在哪里看见过,忘记是谁的博客了。
在这里插入图片描述

打开一个*.wav文件是这个样子,这种文件的头部明显格式信息就少了很多。应该是声音类文件的存储标准有不止一种。
在这里插入图片描述

打开一个*.WRD文件是这个样子,这是单词级别的对应。数字的意思参考上面解释。这个没有明确显示静音,头部静音可以大概判断出来,尾部静音就不好判断了。
在这里插入图片描述

打开一个*.TXT文件是这个样子。句子级别的对应(对齐)。
在这里插入图片描述

补充:感谢这个链接
https://blog.csdn.net/sinat_14878111/article/details/82386721

timit的全称是
The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus,93年发布的数据集

完整的介绍在这里,下载地址也在里面啊,压缩文件是400多兆
http://academictorrents.com/details/34e2b78745138186976cbc27939b1b34d18bd5b3
我已经下载成功啦~~没有显示要收费啊

训练数据是462个说话人的,测试数据是168个说话人的,加起来刚好是630个说话人。

TMIT数据库下文件存放的结构是,
/TRAIN/DR*/SPEARKER_ID/UTTERANCE_ID.wav,
TRAIN/TEST代表是训练集或者测试集,DR*(1~8)代表了说话人的方言类型,然后是说话人的ID文件夹,文件夹下存放了10段语音。TIMIT数据库中不同的人会说同一段话,说的话的内容是一样的话文件名就是一样的,这个要注意。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值