Sound Event Detection: A Tutorial

热爱之所以有力量就在于,你坚守它就好,永远不要去想它会有什么结果。

目录

前言

二、声音事件检测的挑战

三、声音事件检测通用的机器学习方法

四、数据

五、声音事件检测的信号处理方法

A.数据增强

B、特征表示

六、基于机器学习的声音事件检测

A.CRNN

B.先进的方法

七、性能评估

 八、未来展望

总结


前言

这里是对《Sound Event Detection: A Tutorial》做的笔记。

论文地址:https://arxiv.org/pdf/2107.05463.pdf


一、声音事件检测的简单介绍

       声音事件检测的目的就是识别出一个音频中声音事件的种类,以及检测出声音事件发生和结束的时间。如下图所示:

二、声音事件检测的挑战

         目前声音事件检测存在许多挑战,例如:

1、音事件有非常不同的声学特征,有些声音很短,比如枪声,有些声音很长,比如说话声等等。

2、在声音事件检测的实际应用中,需要检测的声音距离麦克风很远,导致麦克风接收到的目标事件的声压级低于环境中发生的其他声音的声压级,增加了检测的难度。

3、生活中发生的声音事件通常是多音的,意味着多个声音事件会在同一时间发生,也增加了检测的难度。

4、音频数据量少,并且标注困难,耗时大。导致目前音频数据集无标签的数据多,有标签的数据很少。

三、声音事件检测通用的机器学习方法

处理声音事件检测任务的主要方法是基于监督学习的,下图展示了一个用于声音事件检测的监督学习的通用分类系统。


        正如上图所示,在学习阶段,系统学习音频信号中提取的特征和帧级别的分类标签之间的关系。分类标签被表示为一个二进制矩阵,其中每个元素表示在某帧内是否处于active状态,若处于active状态,则为1,反之,为0。在测试阶段,系统接收从测试音频提取的特征,从而得到每帧的分类结果。对于声学模型,声音事件检测的性能随着深度学习的发展有了很大的提升。

四、数据

       按照标签进行分类,目前声音事件检测的数据可以分为三类:一个是无标签数据, 一个是弱标签数据,即只有声音事件的分类,没有时间信息,最后是强标签数据,既有声音事件的分类,也有声音事件的起止事件。现在有一些公开的数据集可以使用,如下表所示:

五、声音事件检测的信号处理方法

A.数据增强

time stretching 时间拉伸

pitch shifting 音高变换

dynamic range compression 动态范围拉伸

sub-frame time shifting 子帧时间偏移

block mixing 块混合

mixup 混音

B、特征表示

1、MFCC:声音事件检测最常用的特征是logmel能量,它使用感知激励的频率和振幅标度表示音频信号能量。

2、constant-Q transform (CQT):它的频率轴为对数。CQT在较低频率下提供更好的光谱分辨率,在较高频率下提供更好的时间分辨率。

3、也可以使用在不同分析分辨率下计算的光谱图:使用具有不同时间或频率分辨率的表示法的动机是假设不同类型的声音可能受益于不同频率或时间分辨率的建模,例如短声音,例如门砰砰声,受益于分析中的高时间分辨率,而鸟类歌唱等声音的谐波成分可以用高分辨率的频率更好地表示。

4、feature learning

六、基于机器学习的声音事件检测

       深度神经网络在图像分类和语音识别等许多领域都取得了巨大的进步,而且正如近年来观察到的那样,深度神经网络现在也是环境声音分析和分类的主要方法。它们的主要缺点是需要大量数据进行培训。对大型数据集的这种需求对于声音事件检测来说是一个问题,因为该领域仍然缺乏具有强标记数据的大型数据集。涉及弱标签和迁移学习的高级培训策略提供了适当的解决方案,以应对数据中的缺陷,但一般的系统架构通常不会发生显著变化。

A.CRNN

       用于声音事件检测的通用网络体系结构是卷积递归神经网络(CRNN),CNN做为特征提取器,RNN可以依据近乎无限长的上下文信息做出逐帧的决策。下图展示了一个由三个卷积块组成的CRNN体系结构,CNN后面接两个递归层和两个全连接层。

       如上图所示,一个卷积块包含一个卷积层,一个非线性层和一个池化层。为了保持音频事件检测的时间精度在做池化运算时,只沿着频率轴进行最大池化,对时间轴不做改动,这样使得整个系统的时间分辨率保持不变。为了防止使用标准的RNN会出现梯度爆炸或者梯度消失的问题,这里使用了双向的GRU。全连接层的作用是根据最后一个循环层的输出产生声音事件活动概率。在输出层之前可以有许多使用sigmoid单元的全连接层,输出层是根据任务选择的(例如,用于分类的softmax)。在这种情况下,输出层由sigmoid单元组成,这些单元分别为每个目标事件类提供概率。由于SED中的预期输出是每个事件类的二进制激活指示器序列,因此网络输出被二值化。二值化的阈值可以简单地选择为0.5,或者可以根据数据的统计信息针对问题进行优化。此外,生成的二进制序列可以进行后处理以形成事件实例。

B.先进的方法

迁移学习

在训练的时候使用弱标签或带有噪声的标签

多实例学习

teacher-student models

基于attention机制的网络

七、性能评估

1、基于segment的评估

2、基于event的评估

 八、未来展望

1、active learning

2、 federated learning

3、zero-shot learning

4、model adaptation

总结

以上就是对改论文的简单摘录啦!

  • 12
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
信息论和统计学是两个重要的学科,它们都是研究数据和信息的理论和方法。信息论主要研究信号传输和数据压缩等问题,而统计学则主要研究数据的收集、分析和解释等问题。这两个学科在现代科学和工程中都有着广泛的应用。 信息论是由克劳德·香农于1948年提出的,它主要研究信息的度量、传输和存储等问题。信息论的基本概念包括信息熵、信道容量和编码理论等,这些概念对于通信系统的设计和优化非常重要。在当今的数字通信和互联网应用中,信息论理论和方法被广泛应用于数据压缩、信号处理和网络编码等领域。 统计学则是一门研究数据的收集、分析和解释的学科,它的起源可以追溯到18世纪。在现代科学研究和工程应用中,统计学起着至关重要的作用。统计学主要包括描述统计、推断统计和回归分析等内容,它可以帮助我们从数据中发现规律和趋势,做出科学的预测和决策。 信息论和统计学在许多方面都有着密切的联系和交叉,它们共同构成了数据科学的理论基础。在现代大数据和人工智能的发展趋势下,信息论和统计学的研究和应用也变得越来越重要。因此,深入理解和掌握信息论和统计学的基本原理和方法对于从事相关领域的科研人员和工程师来说都是至关重要的。希望本教程可以帮助读者更好地理解和应用信息论和统计学的知识。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值