20180528 timit数据集下载地址

最新推荐文章于 2024-02-26 16:15:54 发布

Grace_yanyanyan

最新推荐文章于 2024-02-26 16:15:54 发布

阅读量6.4k

点赞数 1

分类专栏：学习笔记文章标签： timit 语音识别数据集

本文链接：https://blog.csdn.net/yj13811596648/article/details/90644596

版权

学习笔记专栏收录该内容

68 篇文章 1 订阅

订阅专栏

可以从下面链接下载timit数据集的一部分，总共应该600多兆，这里只有40多兆，只有一部分也可以。我们可以看看格式。这里只有38个说话人，也就是38个文件夹。
https://download.csdn.net/download/weixin_41864878/10585377

TIMIT全称The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州仪器(TI)、麻省理工学院(MIT)和坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别(phone level)上进行了手动分割，标记。70%的说话人是男性；大多数说话者是成年白人。

给定的10个句子中，包括：

2个方言句子(SA, dialect sentences)，对于每个人这2个方言句子都是相同的；
5个音素紧凑句子(SX, phonetically compact sentences)，这5个是从MIT所给的450个因素分布平衡的句子中选出，目的是为了尽可能的包含所有的音素对。
3个音素发散句子(SI, phonetically diverse sentences)，这3个是由TI从已有的Brown 语料库(theBrown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的，目的是为了增加句子类型和音素文本的多样性，使之尽可能的包括所有的音位变体(allophonic contexts)。

这里只有38个说话人，也就是38个文件夹。每个文件夹都各有50个文件，也就是
*.PHN 文件，10个
*.WAV 文件，10个
*.wav 文件，10个
*.WRD 文件，10个，
*.TXT 文件，10个，表示每个人都说了10句话，上面已经介绍了10个句子都是啥。
以上文件都可以用notepad++打开看。

原始的timit数据集好像没有小写wav文件，应该是作者帮我们转好了吧。那就先说下大写WAV文件和小写的wav文件有什么不同。大写WAV文件是NIST sphere格式的波形文件。是一种无损的音频文件格式。具体可自己查。好像就是传统的读法会出错，不管是用python的wave还是 scipy.io中的wavfile，在读取TIMIT的原始WAV时都会报错。但转换格式后的小写wav就可以。参考：https://www.cnblogs.com/JJJanepp/p/10432254.html
在这里插入图片描述
打开一个*.phn文件是这个样子（后缀名一般不分大小写啊），这个是音素级别的对应。
数字暂时不知道什么意思，但可以肯定的是，0到3050之间是静音，3050到4559之间发的音是音素sh，4559到5723之间发的音是音素ix。

以下都是猜测：假如一段1秒的声音在电脑中存储的都是数字，假设这段语音共有46720个数字，第0个数字到第3050个数字之间保存的数字都表示静音？第3050到4559个数字之间保存的数字都表示音素sh？
在这里插入图片描述
打开一个*.WAV文件是这个样子，这就是具体的声音文件，可以看到，这种NIST文件的头部包含了很多很多的格式信息。具体为啥有些，肯定是有一个标准文件统一规定的，好像是八几年微软出的，我记得在哪里看见过，忘记是谁的博客了。
在这里插入图片描述

打开一个*.wav文件是这个样子，这种文件的头部明显格式信息就少了很多。应该是声音类文件的存储标准有不止一种。
在这里插入图片描述

打开一个*.WRD文件是这个样子，这是单词级别的对应。数字的意思参考上面解释。这个没有明确显示静音，头部静音可以大概判断出来，尾部静音就不好判断了。
在这里插入图片描述

打开一个*.TXT文件是这个样子。句子级别的对应（对齐）。
在这里插入图片描述

补充：感谢这个链接
https://blog.csdn.net/sinat_14878111/article/details/82386721

timit的全称是
The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus，93年发布的数据集

完整的介绍在这里，下载地址也在里面啊，压缩文件是400多兆
http://academictorrents.com/details/34e2b78745138186976cbc27939b1b34d18bd5b3
我已经下载成功啦~~没有显示要收费啊

训练数据是462个说话人的，测试数据是168个说话人的，加起来刚好是630个说话人。

TMIT数据库下文件存放的结构是，
/TRAIN/DR*/SPEARKER_ID/UTTERANCE_ID.wav，
TRAIN/TEST代表是训练集或者测试集，DR*（1～8）代表了说话人的方言类型，然后是说话人的ID文件夹，文件夹下存放了10段语音。TIMIT数据库中不同的人会说同一段话，说的话的内容是一样的话文件名就是一样的，这个要注意。