【语音识别入门】概述

本文链接：https://blog.csdn.net/weixin_51293984/article/details/126500612

本文介绍了语音识别的基本概念，包括定义、评估标准如准确率和效率，并探讨了语音生成涉及的音素、词素等概念。随着深度学习的发展，语音识别错误率显著降低，现代框架结合统计模型与端到端系统。同时列举了多种英文和中文的语音数据集以及常用的工具包，如Kaldi和ESPNet。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、语音识别的定义

Automatic Speech Recognition（ASR）或Speech to Text（STT），将语音转换为文本的任务。

2、语音识别的常用评估标准：

（1）Accuracy（准确率）

音素错误率（Phone Error Rate）
词错误率（Word Error Rate，WER）
字错误率（Character Error Rate，CER）
句错误率（Sentence Error Rate，SER）

（2）Efficiency（效率）

实时率（Real-time Factor，RTF）

3、语音生成

（1）音素：一种语言中语音的“最小”单元。音素可以分为辅音音素和元音音素，不同的语言中音素的数量不完全相同

（2）词素：一种语言中最小的具有语义的结构单元

（3）共振峰：指声音的频谱中能量相对集中的一些区域

（4）协同发音：人的发音过程中，受类似惯性的影响，每一个发音都会受到前面发音和后面发音的影响，音素在声学上的实现和上下文是强相关的

（5）音节：一个更大颗粒度的单位，元音和辅音结合构成一个音节

在中文中，一个汉字读音为一个带调音节，普通话约1300多个带调音节，如果去掉声调，即基础音节，普通话约400个基础音节。

4、语音感知

（1）响度：人主管感受不同频率成分声音的物理量

（2）音色：由声音波形的谐波频谱和包络决定

（3）音调：对于频率的感知，非线性的，近似对数函数

在这里插入图片描述

f：物理频率
Tmel：音调
Mel：单位

5、语音识别的深度学习时代

2006年，多伦多大学Geoffrey Hinton教授在Nature上发表论文，为神经网络提供了有效的预训练算法，标志着语音识别进入深度学习时代。这个阶段声学架构从GMM-HMM转变为DNN-HMM，语言模型也转变为ngram+NNLM。在深度学习时代，语音识别错误率在众多Benchmark上取得新低，目前在IBM，Switchboard数据集上词错误率已达到5.0%，语音系统开始逐步从混合系统（Hybrid）发展到端到端系统。