从跨平台的语音助手到转录服务和辅助工具,再到最近成为大型语言模型(LLM)差异化的关键要素——语音输入已成为日常的用户界面。根据预测,语音用户界面(VUI)的市场规模将从2023年至2028年以23.39%的复合年增长率增长,可以预见将有更多的科技公司采用这一技术。
以下从剖析和定义使语音识别成为可能的最常见技术开始。
一、语音识别的机制:它是如何工作的?
特征提取
在进行任何“识别”之前,机器必须将人们产生的声波转换成它们能理解的格式。这个过程称为预处理和特征提取。梅尔频率倒谱系数(MFCC)和感知线性预测(PLP)系数是两种最常见的特征提取技术。
(1)梅尔频率倒谱系数(MFCC)
梅尔频率倒谱系数(MFCC)捕捉音频信号的功率谱,从本质上识别每个声音的独特之处。这项技术首先通过放大高频来平衡信号使其更清晰。然后,信号被分成短帧或声音片段,持续时间在200毫秒到40毫秒之间。然后对这些帧进行分析以了解它们的频率成分。通过应用一系列模拟人耳如何感知音频的滤波器,梅尔频率倒谱系数(MFCC)捕捕捉语音信号的关键、可识别的特征。最后一步是将这些特征转换成声学模型可以使用的数据格式。
(2)感知线性预测(PLP)系数
感知线性预测(PLP)系数旨在尽可能地模拟人类听觉系统的反应。与梅尔频率倒谱系数(MFCC)类似,感知线性预测系数(PLP)过滤声音频率以模拟人耳。在经过过滤之后,动态范围(样本的“响度”范围)被压缩,以反映人们的听觉对不同音量的不同反应。在最后一步,感知线性预测(PLP)估计“频谱包络线”,这是一种捕捉语音信号最基本特征的方法。这个过程提高了语音识别系统的可靠性,特别是在嘈杂的环境中。
(3)声学建模
声学建模是语音识别系统的核心,它形成了语音信号(声音)和语音单位(构成语言的不同声音)之间的统计关系。最广泛使用的技术包括隐马尔可夫模型(HMM)和最近