语音识别入门知识

一.数据集:
比较常用的:aishell WenetSpeech THCHS30 libriSpeech
中文数据集有这些dbase aidatatang aishell magicdata primewords stcmds thchs
二.数据集特点总结:

1.Mozilla Common Voice:
开发时间早,宣称自己有最大的人类数据库,献者可以选择提供诸如他们的年龄、性别和口音等统计元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法,
下载地址:https://voice.mozilla.org/data
参考:点击可转到CSDN此内容

2.翻译和口语音频的大型数据库Tatoeba
语言学习的句子、翻译和口语音频的大型数据库,用户无须注册便可以搜索任何单词的例句,注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论(没有语言限制)
3.VOICES Dataset
除了基本的声音之外还有一些噪音,300个不同的说话人从LibriSpeech的“干净”的数据子集被选择源音频,确保男女比例均衡。特点是音频比较多,含有噪音。
4.LibriSpeech(很适合入门)
含文本+语音的有声读物 数据集,由Vassil Panaytov编写的语料库,其数据来源LibriVox
5.2000 HUB5 English:
仅包含英语的语音数据集
6.VoxForge:
英语数据集,可以提升不同的口语或语调鲁棒性的场景。(据说有很多免费录音)
7.VoxCeleb
来自于YouTube的大型人声数据集,比较平衡,含有两个子集: VoxCeleb1, VoxCeleb2
8.TIMIT
英语语音识别数据集,优点比较多,至今使用广泛:数据集中句子在音素都进行了手动标记(补充了很多信息),而且数据集比较小,可以在短时间内完成实验。
9.CHIME
噪音试用于语音识别挑战,它包含了训练集、验证集,测试集三部分,含有WAV文件。
10.Google AudioSet
大规模的音频数据集,128维的特征,采样率为1Hz,也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的
11.AISHELL数据集
一个较为常用的中文数据集,语音质量很高

a. AISHELL开源版1
b. AISHELL-2 开源中文语音数据库
c. AISHELL-3 语音合成数据库
d.AISHELL-翻译机录制语音数据库
e.SISHELL—居家环境近远讲同步语音数据库
f.AISHELL-语音唤醒词数据库
12.Aiddataing数据集
a.aidatatang_1505zh(完整的1505小时中文普通话语音数据集)
b.Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)
可以免费使用,含有语音识别、机器翻译、声纹识别等语音相关领域的研究技术。
13.THTCHS30
入门级玩具级别数据库,数据库对学员完全免费
14.Wenet Speech
10000+小时的普通话语音数据集,使用地址:PPASR
15.magicdata
在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC。MagicData-RAMC是一批高质量且标注丰富的训练数据,可以很好地支持开发者完成语音识别和说话人日志相关的研究。
16.primewords
Primewords包含了大约100小时的中文语音数据,这个免费的中文普通话语料库由上海普力信息技术有限公司发布。语料库由296名母语为英语的智能手机录制。转录准确度大于98%,置信水平为95%,学术用途免费。抄本和话语之间的映射以JSON格式给出。
17.stcmds
内容太少,查不太到

三.比较不错的简介(知乎):https://zhuanlan.zhihu.com/p/267372288
四.课程:Python机器学习(北京理工大学)

ps:目前我也在是初步尝试语音识别内容,此篇入门好用信息会慢慢更新

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值