语音识别基础（一）——语音信号的产生和特性

最新推荐文章于 2024-07-11 09:34:34 发布

既往不恋未来不迎

最新推荐文章于 2024-07-11 09:34:34 发布

阅读量4.9k

点赞数 6

分类专栏：语音识别语音产生机理声学特性文章标签：信号处理语音识别

本文链接：https://blog.csdn.net/weixin_45416911/article/details/103714037

版权

最近在看到语音识别的基础部分，了解了语音信号的产生原理和模型，在此记录以下，方便以后查找复习。目录：1. 综述语音是在说话人和听者之间互相传递的信息，传递的媒介是声波。说话人的发音器官做出发声动作，接着空气振动形成声波，声波传到听者的耳朵里，立即引起听者的听觉反应，语音的传递就是这样一个过程。其中，发音动作属于生理现象，空气振动属于物理现象，而听觉反应属于心理现象。从语音传递过程来...

摘要由CSDN通过智能技术生成

最近在看语音识别，一直弄不明白模型到底是怎么进行工作的，于是决定从最基础的了解起，包括语音信号的产生、传播、分析。并在此记录以下，方便以后查找复习。由于重心放在声学模型、算法上，所以这些知识并没有很深入的介绍，都是为了理解确实可以用GMM-HMM或深度学习方法来进行语音识别而服务的。估计写两到三篇，如有不当之处，还请各位大佬指正。
声明：
本篇文章所有内容均由赵力老师编著的《语音信号处理》第二版和韩纪庆、张磊、郑铁然老师编著的《语音信号处理》总结或摘抄而来，版权仍归原版权所有人所有，如有侵权，请联系我删除，仅作学习交流使用，不得商用。

1. 综述

语音是在说话人和听者之间互相传递的信息，传递的媒介是声波。说话人的发音器官做出发声动作，接着空气振动形成声波，声波传到听者的耳朵里，立即引起听者的听觉反应，语音的传递就是这样一个过程。其中，发音动作属于生理现象，空气振动属于物理现象，而听觉反应属于心理现象。
从语音传递过程来研究语音的三个分支：

发音语音学（articulatory phonetics）：它从生理角度研究语音，是最早发展起来的语音学。通过直接观察发音器官分析和仪器分析相结合，可以清楚的认识到语音的发音部位和发音方法。
声学语音学（acoustic phonestic）：它从声学角度研究语音的物理性质，同时考察语音物理性质和发音器官之间的关系，从20世纪40年代开始发展。随着“频谱仪”（sound spectrograph）以及其他电子声学仪器的发明，声学语音学也得到迅速发展，人们对语音的声学性质的认知不断深入。于是，进一步出现了声音模拟、语音合成以及语音识别等研究。
听觉语音学和心理语言学（auditory phonestic and psycholingustics）：因为语言传递的起点和终点都在大脑，因此，它以大脑作为研究对象，是比较新的学科。其目的是探索大脑通过什么步骤或者什么方式来进行语音的发出和接受，以及语言信息又是以什么形式在大脑的什么部位存储起来。声音到达大脑的第一关是人耳，即听觉系统的起点在人耳，因此，听觉语音学和心理语言学还要研究人耳的构造，以及人耳是如何传递声波的。

2. 语音信号的产生

2.1 人的说话过程

图1 人的说话过程

如图1，首先，人在头脑里产生想要用语言表达的信息；然后将这些信息转化为语言编码，即将这些信息用其所包含的音素序列、韵律、响度、基音周期的升降等表示出来，一旦对这些信息完成编码以后，说话人利用一些神经肌肉命令有关部分的肌肉（包括：唇，舌头，声带，腭等）协调地动作，发出声音来；再通过声波为媒介，将语音信号传到听话人耳中，听者开始感知语音信号。听者内耳的基底膜对语音信号进行动态的频谱分析，神经传感器将基底膜的频谱信号转换成对听觉神经的触动信号（类似特征提取），作用在听觉神经上的活动信息，在大脑的更高层的中枢转化成语言编码并由此产生语义信息。

2.2 语音的产生

人类用来产生语音的发声器官自下而上包括：肺部（lung）、气管（trachea）、喉（larynx）、鼻腔（nasal cavity）、口腔（oral cavity）和上、下唇。它们作为一个整体形成了一个形状复杂的管道，如图2所示。喉的部分称为声门，从声门到嘴唇的呼气通道叫做声道（咽腔、口腔、鼻腔三个腔体），随着发出的语音的不同，其形状是不断变化的。语音的产生可以大致分为三步：

图2 发声器官如下图3所示，说话时，可以看作分三步发音：

肺部的空气被横隔膜挤出，形成气流，这个气流就是语音产生的原动力。气流经过气管到达喉部（由甲状软骨、杓状软骨、环状软骨和会厌软骨组成），喉部的两个声带（甲状软骨到杓状软骨之间的韧带褶）之间组成声门（呈“ $\Lambda$ ”型，如图3）。此时，声带受到气流的冲击产生振动，不断的张开和闭合，使声门向上送出一连串的喷流形成一系列准周期的脉冲，一般用非对称的三角波表示。声道以下称为“声门子系统“，用于激励振动，是激励系统，可以用数学方法对其进行建模，称为”激励模型“（这里就不介绍了）；

图3 声门开度控制情况

声带振动产生声音，这是产生声音的基本声源，称为声带声源。声带声源进一步调制后经过不同的声道构型，发出不同的语音。是“声道系统”，用数学方法可以建立声道模型。需要注意的是，在此过程中，声道变化非常复杂，是自声门、声带之后最重要、对发音起决定性作用的器官；
最后就是在嘴唇开口处将语音辐射出去，是“辐射系统”，对应数学模型的辐射模型。

最低0.47元/天解锁文章

既往不恋未来不迎

关注

6
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
语音识别基础（一）——语音信号的产生和特性

最近在看到语音识别的基础部分，了解了语音信号的产生原理和模型，在此记录以下，方便以后查找复习。目录：1. 综述语音是在说话人和听者之间互相传递的信息，传递的媒介是声波。说话人的发音器官做出发声动作，接着空气振动形成声波，声波传到听者的耳朵里，立即引起听者的听觉反应，语音的传递就是这样一个过程。其中，发音动作属于生理现象，空气振动属于物理现象，而听觉反应属于心理现象。从语音传递过程来...
复制链接

扫一扫