VAD--学习笔记

  1. 定义:
    1. Voice Activity Detection 语音断点检测
    2. 用于判断给定的音频数据是否存在语音
  2.  VAD检测给定音频数据含有语音的概率,VAD方法通常包括特征提取和语音/非语音判决两部分。
  3. 当前使用的语音特征主要有时域和频域两种:
    1. 时域特征:能量波动;过零率最大能量最小能量等。
    2. 频域特征:基频;频谱组成;频谱质心;谱差;谱密度;谱衰减;
  4. 用于VAD判决的特征通常可以分为六大类:能量;频域;倒谱;谱差;谐波;长时信息;
  5. 基于能量的特征计算简单,如能量过零率,基于谱(频谱,倒谱和谱差)在低SNR可以获得较好的效果,当SNR为0dB时,基于语音谐波和长时语音特征判决方法的鲁棒性更强。
  6. 特征选取:
    1. 特征对VAD检测尤为重要,好的特征应有如下特性。
      1. 区分能力:含噪语音和仅含噪声音频的分离度应尽量大。理论上,好的特征能够让语音特征和噪声特征分布没有交集。
      2. 噪声鲁棒性:背景噪声会造成语音失真,这会影响提取的特征区分能力。
    2. 基于能量的特征:信号的能量强度是基于能量的VAD检测方法的主要依据,在满足语音能量大于背景噪声能量的假设下,当能量大于某一门限时,则可以认为有语音存在,当噪声能量达到和语音能量一样大时,能量特征无法区分是语音还是纯噪声。
    3. 短时能量过零率:采集到的语音信号在数字域上有正负之分,从坐标轴上看,有些在正半轴,有些在负半轴,如图3-1所示。过零率等于一段时间内穿过横轴的次数与总采样点数的比值,它反映了信号变化的快慢,虽是时域特征,在变化快慢的程度上反映了频域信息。过零率对低频噪声敏感,实际使用中可以过滤掉低频部分。
    4. 频域特征:通过STFT将时域信号变成频域信号,俗称声谱图,即使SNR为0dB,一些频带的长时包络还是可以用于区分语音和噪声。
    5. 倒谱特征:能量倒谱峰值确定了语音信号的基频,也有使用MFCC特征作为VAD判决的输入特征。
    6. 基于谐波的特征:语音的一个明显特征是包含了基频F0及其多个谐波频率,即使在强噪声场景,谐波这一特征也是存在的,可以使用自相关的方法找到基频所在频点。
    7. 长时特征:语音是非稳态信号,正常语速下,大部分人通常每秒发出10~15个音素,音素间的谱分布是不同的,这就导致了随着时间变化,语音统计特性也是变化的。另外,日常绝大多数噪声是稳态的(变化比较慢),如白噪声,根据音频长时统计变化特征也可用于区分语音/噪声。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值