语音生成
对于人类来说发声是由多种器官合作发出。
对于语音生成的过程可以简单理解成一个源滤波器的模型,发音由信号源(声门)经过滤波器(口腔、鼻腔、嘴型等)产生。其中浊音由声带振动引起,声音波形明显。清音声带不震动,波形类似白噪。
一些概念
1. 音素(phoneme):也称音位,是能够区别意义的最小语音单位,同一音素由不同人/环境阅读,可以形成不同的发音。
2. 字素(grapheme):音素对应的文本。
3. 发音(phone):某个音素的具体发音。音素可具化为实际的音,该过程称为音素的语音体现。一个音素可能包含着几个不同音值的音,因而可以体现为一个音、两个音或更多的同位音。
4. 音节(syllable):音节由音素组成。元音和辅音构成一个音节。在汉语中,除儿化音外,一个汉字就是一个音节。
5、共振峰:声门处的准周期激励进入声道时会引起共振特性,产生一组共振频率,这一组共振频率称为共振峰。
6、协同发音
在说一段话时,每个音会因为惯性作用,发每个音可能会受到前面后后面音的影响,这个影响就是协同发音的作用。
7、音素抄本
上面时语音生成的过程及一些相关概念。
语音生成与语音识别
语音感知
一些与声学特征相关的物理特征
响度:响度是一种主观心理量,是人类主观感觉到的声音强弱程度,又称音量。一般来说,声音频率一定时,声强越强,响度也越大。相同的声强,频率不同时,响度也可能不同。频率的声强级与响度级的对应关系要等响度曲线查出。
语音感知与语音识别
语音识别
语音识别的过程
对于语音的输入,会取一个长度为25ms的框,之后以10ms为长度向后移。所以一个1s的语言会取到100个框。
声音信号的输入,会对一个框里的声音提取声谱图。将声谱进行过滤,之后进行log、DCT、MFCC
语言识别常用的模型
语音识别的评估
语音识别框架如下图,将音频进行特征提取,将提取到的结果放到解码器中,根据声学模型、语言模型、发音词典最终识别出结果。