揭开神秘面纱:深入了解语音识别算法

从跨平台的语音助手到转录服务和辅助工具,再到最近成为大型语言模型(LLM)差异化的关键要素——语音输入已成为日常的用户界面。根据预测,语音用户界面(VUI)的市场规模将从2023年至2028年以23.39%的复合年增长率增长,可以预见将有更多的科技公司采用这一技术。

以下从剖析和定义使语音识别成为可能的最常见技术开始。

一、语音识别的机制:它是如何工作的?

特征提取

在进行任何“识别”之前,机器必须将人们产生的声波转换成它们能理解的格式。这个过程称为预处理和特征提取。梅尔频率倒谱系数(MFCC)和感知线性预测(PLP)系数是两种最常见的特征提取技术。

(1)梅尔频率倒谱系数(MFCC)

梅尔频率倒谱系数(MFCC)捕捉音频信号的功率谱,从本质上识别每个声音的独特之处。这项技术首先通过放大高频来平衡信号使其更清晰。然后,信号被分成短帧或声音片段,持续时间在200毫秒到40毫秒之间。然后对这些帧进行分析以了解它们的频率成分。通过应用一系列模拟人耳如何感知音频的滤波器,梅尔频率倒谱系数(MFCC)捕捕捉语音信号的关键、可识别的特征。最后一步是将这些特征转换成声学模型可以使用的数据格式。

(2)感知线性预测(PLP)系数

感知线性预测(PLP)系数旨在尽可能地模拟人类听觉系统的反应。与梅尔频率倒谱系数(MFCC)类似,感知线性预测系数(PLP)过滤声音频率以模拟人耳。在经过过滤之后,动态范围(样本的“响度”范围)被压缩,以反映人们的听觉对不同音量的不同反应。在最后一步,感知线性预测(PLP)估计“频谱包络线”,这是一种捕捉语音信号最基本特征的方法。这个过程提高了语音识别系统的可靠性,特别是在嘈杂的环境中。

(3)声学建模

声学建模是语音识别系统的核心,它形成了语音信号(声音)和语音单位(构成语言的不同声音)之间的统计关系。最广泛使用的技术包括隐马尔可夫模型(HMM)和最近

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

奔向理想的星辰大海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值