语音笔记(1)

本文介绍了语音生成的基本过程,包括声源和滤波器模型、音素和字素的概念,以及共振峰和协同发音。还详细阐述了语音识别的过程,涉及声谱分析、MFCC处理和识别框架,包括声学模型、语言模型和发音词典的应用。
摘要由CSDN通过智能技术生成

语音生成

对于人类来说发声是由多种器官合作发出。

 对于语音生成的过程可以简单理解成一个源滤波器的模型,发音由信号源(声门)经过滤波器(口腔、鼻腔、嘴型等)产生。其中浊音由声带振动引起,声音波形明显。清音声带不震动,波形类似白噪。

一些概念

1. 音素(phoneme):也称音位,是能够区别意义的最小语音单位,同一音素由不同人/环境阅读,可以形成不同的发音。

2. 字素(grapheme):音素对应的文本。

3. 发音(phone):某个音素的具体发音。音素可具化为实际的音,该过程称为音素的语音体现。一个音素可能包含着几个不同音值的音,因而可以体现为一个音、两个音或更多的同位音。

4. 音节(syllable):音节由音素组成。元音和辅音构成一个音节。在汉语中,除儿化音外,一个汉字就是一个音节。

5、共振峰:声门处的准周期激励进入声道时会引起共振特性,产生一组共振频率,这一组共振频率称为共振峰。

6、协同发音

在说一段话时,每个音会因为惯性作用,发每个音可能会受到前面后后面音的影响,这个影响就是协同发音的作用。

 7、音素抄本

上面时语音生成的过程及一些相关概念。

语音生成与语音识别

 语音感知

 一些与声学特征相关的物理特征

响度:响度是一种主观心理量,是人类主观感觉到的声音强弱程度,又称音量一般来说,声音频率一定时,声强越强,响度也越大。相同的声强,频率不同时,响度也可能不同。频率的声强级与响度级的对应关系要等响度曲线查出。

 语音感知与语音识别

语音识别

语音识别的过程

对于语音的输入,会取一个长度为25ms的框,之后以10ms为长度向后移。所以一个1s的语言会取到100个框。

 声音信号的输入,会对一个框里的声音提取声谱图。将声谱进行过滤,之后进行log、DCT、MFCC

 语言识别常用的模型

 语音识别的评估

 语音识别框架如下图,将音频进行特征提取,将提取到的结果放到解码器中,根据声学模型、语言模型、发音词典最终识别出结果。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值