语音识别入门知识

偶尔抽风就更新

已于 2023-01-09 14:40:03 修改

阅读量662

点赞数

分类专栏： PYTHON 文章标签：语音识别人工智能

于 2023-01-04 20:51:24 首次发布

本文链接：https://blog.csdn.net/weixin_46605165/article/details/128554192

版权

PYTHON 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一.数据集：
比较常用的：aishell WenetSpeech THCHS30 libriSpeech
中文数据集有这些dbase aidatatang aishell magicdata primewords stcmds thchs
二.数据集特点总结：

1.Mozilla Common Voice：
开发时间早，宣称自己有最大的人类数据库，献者可以选择提供诸如他们的年龄、性别和口音等统计元数据，这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法，
下载地址：https://voice.mozilla.org/data
参考：点击可转到CSDN此内容

2.翻译和口语音频的大型数据库Tatoeba
语言学习的句子、翻译和口语音频的大型数据库，用户无须注册便可以搜索任何单词的例句，注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论（没有语言限制）
3.VOICES Dataset
除了基本的声音之外还有一些噪音，300个不同的说话人从LibriSpeech的“干净”的数据子集被选择源音频，确保男女比例均衡。特点是音频比较多，含有噪音。
4.LibriSpeech(很适合入门)
含文本＋语音的有声读物 数据集，由Vassil Panaytov编写的语料库，其数据来源LibriVox
5.2000 HUB5 English：
仅包含英语的语音数据集
6.VoxForge:
英语数据集，可以提升不同的口语或语调鲁棒性的场景。（据说有很多免费录音）
7.VoxCeleb
来自于YouTube的大型人声数据集，比较平衡，含有两个子集： VoxCeleb1， VoxCeleb2
8.TIMIT
英语语音识别数据集，优点比较多，至今使用广泛：数据集中句子在音素都进行了手动标记（补充了很多信息），而且数据集比较小，可以在短时间内完成实验。
9.CHIME
噪音试用于语音识别挑战，它包含了训练集、验证集，测试集三部分，含有WAV文件。
10.Google AudioSet
大规模的音频数据集，128维的特征，采样率为1Hz，也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的
11.AISHELL数据集
一个较为常用的中文数据集，语音质量很高

a. AISHELL开源版1
b. AISHELL-2 开源中文语音数据库
c. AISHELL-3 语音合成数据库
d.AISHELL-翻译机录制语音数据库
e.SISHELL—居家环境近远讲同步语音数据库
f.AISHELL-语音唤醒词数据库
12.Aiddataing数据集
a.aidatatang_1505zh（完整的1505小时中文普通话语音数据集）
b.Aidatatang_200zh（基于完整数据集精选的200小时中文普通话语音数据集）
可以免费使用，含有语音识别、机器翻译、声纹识别等语音相关领域的研究技术。
13.THTCHS30
入门级玩具级别数据库，数据库对学员完全免费
14.Wenet Speech
10000+小时的普通话语音数据集，使用地址：PPASR
15.magicdata
在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC。MagicData-RAMC是一批高质量且标注丰富的训练数据，可以很好地支持开发者完成语音识别和说话人日志相关的研究。
16.primewords
Primewords包含了大约100小时的中文语音数据，这个免费的中文普通话语料库由上海普力信息技术有限公司发布。语料库由296名母语为英语的智能手机录制。转录准确度大于98％，置信水平为95％，学术用途免费。抄本和话语之间的映射以JSON格式给出。
17.stcmds
内容太少，查不太到