第五讲:
1. 端点检测:一段语音信号中准确地找出语音信号的起始点和结束点。目的:把有效的语音信号与无用的噪声信号分离。分类:①基于阈值的方法:根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征并与设定的阈值进行比较②基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行比较。本质:根据语音和噪声的相同参数所表现出的不同特征来进行区分。
2. 端点检测:短时过零率来检测清音,短时能量来检测浊音。
3. 端点检测双门限法步骤:①计算短时能量(高门限)和过零率(低门限)②选取一个较高的门限,语音信号的能量包络大部分都在此门限之上,进行一次初判,语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。③根据噪声能量,确定一个较低的门限并从初判起点往左,从初判终点往右搜索,分别找到能零比曲线第一次与门限相交的两个点,两点之间段就是用双门限方法所判定的语音段④以短时平均过零率为准,从低门限点往左右搜索,找到短时平均过零率低于某阈值的两点,为语音的起止点。
4. 端点检测谱熵法:通过检测谱的平坦程度,达到语音端点检测的目的。步骤:①对语音信号进行分帧加窗,取FFT的点数②计算每一帧的谱能量③计算出每一帧中每个样本点的概率密度函数④计算出每一帧的谱熵值⑤设置判决门限⑥根据各帧的谱熵值进行端点检测。
5. 端点检测自相关法:由于两种信号的自相关函数存在极大的差异,可以利用这种差别来提取语音端点。根据噪声的情况,设置两个阈值T1和T2,当相关函数最大值大于T2时,便判定是语音;当相关函数最大值大于或小于T1时,则判定为语音信号的端点。
6. 基音频率:浊音的声带振动的基本频率。基音周期:声带每开启和闭合一次的时间,倒数就是基音频率。
7. 汉语是一种声调语言,声调具有辩义作用。声调的变化就是浊音基音周期的变化。汉语音节的一般结构:声母,韵母,声调。
8. 基音检测自相关函数法:①语音信号s(m)经窗长为N的窗口(应使用矩形窗,窗长要大于两个基音周期)截取为一段加窗语音信号Sn(m)后,定义Sn(m)的自相关函数(ACF),Rn(k)为:
②浊音信号的自相关函数在基音周期的整数倍位置上出现峰值;而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音,检测峰值的位置就可提取基音周期值。
9. 基音检测倒谱法:原理:浊音语音的复倒谱中存在峰值,其出现时间等于基因周期;而清音语音段的复倒谱则不出现这种峰值。利用这一性质可以进行清/浊音判断并估计浊音的基音周期。步骤:①计算复倒谱②解卷③提取出声门激励信息,在预期的基音周期附近寻找峰值,如果峰值超过了预先设定的门限,则语音断定为浊音,而峰的位置就是基音周期的估值;
如果不存在超出门限的峰值,则语音断定为清音;如果计算的是依赖于时间的复倒谱,则可估计出激励源模型及基音周期随时间的变化。
为了减小误差: 1.减少共振峰的影响 2.对语音信号进行非线性变换后再 求自相关函数。
10. 共振峰估计带通滤波器组法:
①由于滤波器组中的滤波器数目有限,估计的共振峰频率不可避免地存在误差②而且对共振峰带宽不易确定③由于无法去除声门激励的影响,可能会造成虚假峰值。
11. 倒谱法:
倒谱法存在的缺陷:①并不是所有的谱峰都为共振峰②带宽的计算
原因:①当两个共振峰很靠近时,发生谱重叠,很难从频谱曲线计算共振峰的带宽。②而且峰值检测器认为此处只存在一个共振峰。