揭开神秘面纱：深入了解语音识别算法

奔向理想的星辰大海

于 2024-08-19 16:03:32 发布

阅读量256

点赞数 4

分类专栏：架构文章标签：语音识别算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjianwei666/article/details/141327913

版权

从跨平台的语音助手到转录服务和辅助工具，再到最近成为大型语言模型(LLM)差异化的关键要素——语音输入已成为日常的用户界面。根据预测，语音用户界面(VUI)的市场规模将从2023年至2028年以23.39%的复合年增长率增长，可以预见将有更多的科技公司采用这一技术。

以下从剖析和定义使语音识别成为可能的最常见技术开始。

一、语音识别的机制：它是如何工作的?

特征提取

在进行任何“识别”之前，机器必须将人们产生的声波转换成它们能理解的格式。这个过程称为预处理和特征提取。梅尔频率倒谱系数(MFCC)和感知线性预测(PLP)系数是两种最常见的特征提取技术。

(1)梅尔频率倒谱系数(MFCC)

梅尔频率倒谱系数(MFCC)捕捉音频信号的功率谱，从本质上识别每个声音的独特之处。这项技术首先通过放大高频来平衡信号使其更清晰。然后，信号被分成短帧或声音片段，持续时间在200毫秒到40毫秒之间。然后对这些帧进行分析以了解它们的频率成分。通过应用一系列模拟人耳如何感知音频的滤波器，梅尔频率倒谱系数(MFCC)捕捕捉语音信号的关键、可识别的特征。最后一步是将这些特征转换成声学模型可以使用的数据格式。

(2)感知线性预测(PLP)系数

感知线性预测(PLP)系数旨在尽可能地模拟人类听觉系统的反应。与梅尔频率倒谱系数(MFCC)类似，感知线性预测系数(PLP)过滤声音频率以模拟人耳。在经过过滤之后，动态范围(样本的“响度”范围)被压缩，以反映人们的听觉对不同音量的不同反应。在最后一步，感知线性预测(PLP)估计“频谱包络线”，这是一种捕捉语音信号最基本特征的方法。这个过程提高了语音识别系统的可靠性，特别是在嘈杂的环境中。

(3)声学建模

声学建模是语音识别系统的核心，它形成了语音信号(声音)和语音单位(构成语言的不同声音)之间的统计关系。最广泛使用的技术包括隐马尔可夫模型(HMM)和最近

最低0.47元/天解锁文章

奔向理想的星辰大海

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
揭开神秘面纱：深入了解语音识别算法

从跨平台的语音助手到转录服务和辅助工具，再到最近成为大型语言模型(LLM)差异化的关键要素——语音输入已成为日常的用户界面。根据预测，语音用户界面(VUI)的市场规模将从2023年至2028年以23.39%的复合年增长率增长，可以预见将有更多的科技公司采用这一技术。以下从剖析和定义使语音识别成为可能的最常见技术开始。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

奔向理想的星辰大海 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。