VAD--学习笔记

最新推荐文章于 2024-07-23 14:17:57 发布

Wsyoneself

最新推荐文章于 2024-07-23 14:17:57 发布

阅读量647

点赞数 1

分类专栏： speech 文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45647721/article/details/128128989

版权

speech 专栏收录该内容

23 篇文章 8 订阅

订阅专栏

定义:
1. Voice Activity Detection 语音断点检测
2. 用于判断给定的音频数据是否存在语音
VAD检测给定音频数据含有语音的概率，VAD方法通常包括特征提取和语音/非语音判决两部分。
当前使用的语音特征主要有时域和频域两种：
1. 时域特征：能量波动；过零率最大能量最小能量等。
2. 频域特征：基频；频谱组成；频谱质心；谱差；谱密度；谱衰减；
用于VAD判决的特征通常可以分为六大类：能量；频域；倒谱；谱差；谐波；长时信息；
基于能量的特征计算简单，如能量过零率，基于谱（频谱，倒谱和谱差）在低SNR可以获得较好的效果，当SNR为0dB时，基于语音谐波和长时语音特征判决方法的鲁棒性更强。
特征选取：
1. 特征对VAD检测尤为重要，好的特征应有如下特性。
  1. 区分能力：含噪语音和仅含噪声音频的分离度应尽量大。理论上，好的特征能够让语音特征和噪声特征分布没有交集。
  2. 噪声鲁棒性：背景噪声会造成语音失真，这会影响提取的特征区分能力。
2. 基于能量的特征：信号的能量强度是基于能量的VAD检测方法的主要依据，在满足语音能量大于背景噪声能量的假设下，当能量大于某一门限时，则可以认为有语音存在，当噪声能量达到和语音能量一样大时，能量特征无法区分是语音还是纯噪声。
3. 短时能量过零率：采集到的语音信号在数字域上有正负之分，从坐标轴上看，有些在正半轴，有些在负半轴，如图3-1所示。过零率等于一段时间内穿过横轴的次数与总采样点数的比值，它反映了信号变化的快慢，虽是时域特征，在变化快慢的程度上反映了频域信息。过零率对低频噪声敏感，实际使用中可以过滤掉低频部分。
4. 频域特征：通过STFT将时域信号变成频域信号，俗称声谱图，即使SNR为0dB，一些频带的长时包络还是可以用于区分语音和噪声。
5. 倒谱特征：能量倒谱峰值确定了语音信号的基频，也有使用MFCC特征作为VAD判决的输入特征。
6. 基于谐波的特征：语音的一个明显特征是包含了基频F0及其多个谐波频率，即使在强噪声场景，谐波这一特征也是存在的，可以使用自相关的方法找到基频所在频点。
7. 长时特征：语音是非稳态信号，正常语速下，大部分人通常每秒发出10~15个音素，音素间的谱分布是不同的，这就导致了随着时间变化，语音统计特性也是变化的。另外，日常绝大多数噪声是稳态的（变化比较慢），如白噪声，根据音频长时统计变化特征也可用于区分语音/噪声。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
VAD--学习笔记

VAD--学习笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。