可以从下面链接下载timit数据集的一部分,总共应该600多兆,这里只有40多兆,只有一部分也可以。我们可以看看格式。这里只有38个说话人,也就是38个文件夹。
https://download.csdn.net/download/weixin_41864878/10585377
TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。
给定的10个句子中,包括:
- 2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
- 5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450个因素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。
- 3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的Brown 语料库(theBrown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。
这里只有38个说话人,也就是38个文件夹。每个文件夹都各有50个文件,也就是
*.PHN 文件,10个
*.WAV 文件,10个
*.wav 文件,10个
*.WRD 文件,10个,
*.TXT 文件,10个,表示每个人都说了10句话,上面已经介绍了10个句子都是啥。
以上文件都可以用notepad++打开看。
原始的timit数据集好像没有小写wav文件,应该是作者帮我们转好了吧。那就先说下大写WAV文件和小写的wav文件有什么不同。大写WAV文件是NIST sphere格式的波形文件。是一种无损的音频文件格式。具体可自己查。好像就是传统的读法会出错,不管是用python的wave还是 scipy.io中的wavfile,在读取TIMIT的原始WAV时都会报错。但转换格式后的小写wav就可以。参考:https://www.cnblogs.com/JJJanepp/p/10432254.html
打开一个*.phn文件是这个样子(后缀名一般不分大小写啊),这个是音素级别的对应。
数字暂时不知道什么意思,但可以肯定的是,0到3050之间是静音,3050到4559之间发的音是音素sh,4559到5723之间发的音是音素ix。
以下都是猜测:假如一段1秒的声音在电脑中存储的都是数字,假设这段语音共有46720个数字,第0个数字到第3050个数字之间保存的数字都表示静音?第3050到4559个数字之间保存的数字都表示音素sh?
打开一个*.WAV文件是这个样子,这就是具体的声音文件,可以看到,这种NIST文件的头部包含了很多很多的格式信息。具体为啥有些,肯定是有一个标准文件统一规定的,好像是八几年微软出的,我记得在哪里看见过,忘记是谁的博客了。
打开一个*.wav文件是这个样子,这种文件的头部明显格式信息就少了很多。应该是声音类文件的存储标准有不止一种。
打开一个*.WRD文件是这个样子,这是单词级别的对应。数字的意思参考上面解释。这个没有明确显示静音,头部静音可以大概判断出来,尾部静音就不好判断了。
打开一个*.TXT文件是这个样子。句子级别的对应(对齐)。
补充:感谢这个链接
https://blog.csdn.net/sinat_14878111/article/details/82386721
timit的全称是
The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus,93年发布的数据集
完整的介绍在这里,下载地址也在里面啊,压缩文件是400多兆
http://academictorrents.com/details/34e2b78745138186976cbc27939b1b34d18bd5b3
我已经下载成功啦~~没有显示要收费啊
训练数据是462个说话人的,测试数据是168个说话人的,加起来刚好是630个说话人。
TMIT数据库下文件存放的结构是,
/TRAIN/DR*/SPEARKER_ID/UTTERANCE_ID.wav,
TRAIN/TEST代表是训练集或者测试集,DR*(1~8)代表了说话人的方言类型,然后是说话人的ID文件夹,文件夹下存放了10段语音。TIMIT数据库中不同的人会说同一段话,说的话的内容是一样的话文件名就是一样的,这个要注意。