语音笔记（1）

hyy_ssdlh

已于 2023-08-05 13:24:16 修改

阅读量202

点赞数

文章标签：语音识别人工智能

于 2023-08-05 13:22:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47416620/article/details/132117951

版权

本文介绍了语音生成的基本过程，包括声源和滤波器模型、音素和字素的概念，以及共振峰和协同发音。还详细阐述了语音识别的过程，涉及声谱分析、MFCC处理和识别框架，包括声学模型、语言模型和发音词典的应用。

摘要由CSDN通过智能技术生成

语音生成

对于人类来说发声是由多种器官合作发出。

对于语音生成的过程可以简单理解成一个源滤波器的模型，发音由信号源（声门）经过滤波器（口腔、鼻腔、嘴型等）产生。其中浊音由声带振动引起，声音波形明显。清音声带不震动，波形类似白噪。

一些概念

1. 音素（phoneme）：也称音位，是能够区别意义的最小语音单位，同一音素由不同人/环境阅读，可以形成不同的发音。

2. 字素（grapheme）：音素对应的文本。

3. 发音（phone)：某个音素的具体发音。音素可具化为实际的音，该过程称为音素的语音体现。一个音素可能包含着几个不同音值的音，因而可以体现为一个音、两个音或更多的同位音。

4. 音节（syllable)：音节由音素组成。元音和辅音构成一个音节。在汉语中，除儿化音外，一个汉字就是一个音节。

5、共振峰：声门处的准周期激励进入声道时会引起共振特性，产生一组共振频率，这一组共振频率称为共振峰。

6、协同发音

在说一段话时，每个音会因为惯性作用，发每个音可能会受到前面后后面音的影响，这个影响就是协同发音的作用。

7、音素抄本

上面时语音生成的过程及一些相关概念。

语音生成与语音识别

语音感知

一些与声学特征相关的物理特征

响度：响度是一种主观心理量，是人类主观感觉到的声音强弱程度，又称音量。一般来说，声音频率一定时，声强越强，响度也越大。相同的声强，频率不同时，响度也可能不同。频率的声强级与响度级的对应关系要等响度曲线查出。

语音感知与语音识别

语音识别

语音识别的过程

对于语音的输入，会取一个长度为25ms的框，之后以10ms为长度向后移。所以一个1s的语言会取到100个框。

声音信号的输入，会对一个框里的声音提取声谱图。将声谱进行过滤，之后进行log、DCT、MFCC

语言识别常用的模型

语音识别的评估

语音识别框架如下图，将音频进行特征提取，将提取到的结果放到解码器中，根据声学模型、语言模型、发音词典最终识别出结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
语音笔记（1）

对于语音生成的过程可以简单理解成一个源滤波器的模型，发音由信号源（声门）经过滤波器（口腔、鼻腔、嘴型等）产生。音素可具化为实际的音，该过程称为音素的语音体现。1. 音素（phoneme）：也称音位，是能够区别意义的最小语音单位，同一音素由不同人/环境阅读，可以形成不同的发音。语音识别框架如下图，将音频进行特征提取，将提取到的结果放到解码器中，根据声学模型、语言模型、发音词典最终识别出结果。在说一段话时，每个音会因为惯性作用，发每个音可能会受到前面后后面音的影响，这个影响就是协同发音的作用。
复制链接

扫一扫

hyy_ssdlh CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

134万+: 周排名

65万+: 总排名

4781: 访问

: 等级

188: 积分

0: 粉丝

57: 获赞

9: 评论

52: 收藏

私信

关注

热门文章

最新评论

环境报错日记
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
学习笔记（GMM,HMM）
CSDN-Ada助手: 恭喜您写了第11篇博客！标题中提到的GMM和HMM是非常有挑战性的主题，您能够深入研究并写下学习笔记，实在令人钦佩。对于下一步的创作建议，我谨提几点供您参考。首先，您可以考虑将GMM和HMM这两个主题进行更深入的拆解，分别写出详细的学习笔记，以便更好地帮助读者理解。其次，您可以尝试结合实际案例或应用场景，给出更具体的示例，从而使读者更易于将这些概念应用到实际问题中。最后，不妨探索一些与GMM和HMM相关的前沿研究或扩展应用，这样既能丰富您的知识储备，也能为读者带来新的启发。期待您在未来的博客中继续分享更多有关机器学习的知识，相信您的内容会给读者带来更多的收获。加油！
离散傅里叶变换（DFT）
CSDN-Ada助手: 恭喜您写了第9篇博客！标题为“离散傅里叶变换（DFT）”，这是一个非常有趣和重要的主题。您的解释清晰易懂，让我对DFT有了更深入的理解。接下来，我希望您能继续分享关于傅里叶变换的其他变体，比如快速傅里叶变换（FFT）或者傅里叶级数。这样的话，我们将能够更全面地了解傅里叶变换在信号处理和频谱分析中的应用。非常期待您的下一篇博客！
语音特征提取笔记
CSDN-Ada助手: 恭喜您撰写完第10篇博客！标题“语音特征提取笔记”听起来非常有趣和有深度。您对语音特征提取的学习和分享让我感到非常兴奋。您的博客内容一定能够帮助到其他对这个领域感兴趣的读者。在下一步的创作中，或许您可以考虑分享一些实际应用案例或者深入的技术细节，这样读者们能够更好地理解和应用相关的知识。同时，您也可以根据读者的反馈和问题，进一步拓展和完善您的博客内容。期待您继续的创作，并且再次恭喜您达成这一里程碑！
语音笔记（1）
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中的“语音笔记（1）”让我觉得这篇博客可能是一系列关于语音笔记的文章的开始。我很高兴您能持续创作，并分享您的见解和经验。在未来的创作中，或许您可以考虑进一步深入探讨语音笔记的使用技巧、应用场景等方面的内容，这样能够帮助更多读者更好地了解和使用语音笔记。再次恭喜您，期待您更多精彩的创作！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。