端点检测是语音识别和语音处理的一个基本环节,也是语音识别研究的一个热点领域。技术的主要目的是从输入的语音中对语音和非语音进行区分,主要功能可以有:
-
- 自动打断。
- 去掉语音中的静音成分。
- 获取输入语音中有效语音。
- 去除噪声,对语音进行增强。
目前,端点检测技术主要是根据语音的一些时域或频域特征进行区分。
一,时域参数
时域参数端点检测是根据时域中的特征参数进行区分,一般如果信噪比较高的时候,效果至少90%以上。
- 时域能量大小。
- 时域平均过零率。
- 短时相关性分析。相关性分析主要是利用语音的相关性比噪声强,噪声之间的相关性呈现下降的趋势,但因为噪声种类太多,因此只针对少量、特定噪声。
- 能量变化率。也有人用这个,没有实验过。
- 对数能量。
- 子带能量。实验表明,这个效果会比单纯的能量要好。
- GMM假设检验。
- 其它。其它也有一些,都是从自适应、噪声能量估计、信噪比估计等角度出发。
二,频域参数
频域参数的抗噪性会比时域要好,但计算的cost也要高,下列技术是主流
- 谱熵。谱熵在频域与时域较量时,是比较优秀的,鲁棒性明显好于时域。
- 频域子带。这种方法对于自适应类的算法来说,是比较优秀的,因为可以通过子带选择和设计,改变噪声的估计。