- [1] M. V. Conde et al, "Weakly-supervised classification and detection of bird sounds in the wild. A BirdCLEF 2021 solution," Cornell University Library, arXiv.org, Ithaca, 2021. DOI: 10.48550/arxiv.2107.04878.
本研究提出了一种用于分析复杂声景录音并识别背景中的鸟鸣的声音检测和分类流程。通过从弱标签中学习,我们的解决方案可以在野外对细粒度的鸟类鸣叫进行分类,并对背景声音(如飞机、雨等)具有鲁棒性。在BirdCLEF 2021挑战赛中,我们的解决方案在816个团队中排名第10位。
- 过去方案: 过去的BirdCLEF挑战赛提出了与大规模鸟类声音识别在声景或复杂声学环境中相关的不同问题。先前的解决方案主要基于深度卷积神经网络(CNNs),通常选择具有注意机制的深度CNNs作为骨干网络。此外,还有一些方法专注于声音事件检测(SED),这些方法通常使用2D CNNs从输入音频信号(log-melspectrogram)中提取有用的特征,然后使用循环神经网络(RNNs)来建模从提取的特征中的更长时间上下文,或者直接使用特征图进行预测,因为它保留了时间段信息。
- 论文的Motivation: 本研究的动机是通过开发一种声音检测和分类流程,从复杂的声景录音中识别鸟鸣。通过利用弱标签进行学习,我们的方法可以在野外环境中对细粒度的鸟类鸣叫进行分类,并且对背景声音具有鲁棒性。这项研究的目标是在BirdCLEF 2021挑战赛中取得良好的成绩,并为鸟类种群和生物多样性的监测提供有力的工具。
理论背景:本文介绍了BirdCLEF 2021挑战赛的目标和数据集。该挑战赛旨在识别声景录音中的鸟鸣,并于2021年4月1日至6月1日在Kaggle上举办。训练集包含397种鸟类的短音频录音,而测试集包含约80个声景录音。挑战要求参与者预测给定声景中每个5秒段是否存在鸟鸣,并识别该段中的鸟类。性能以“微平均F1分数”衡量,并在公共和私有排行榜上报告。训练录音由xenocanto.com的用户从不同地点上传,而测试录音来自四个特定地点。
技术路线:本文提出的解决方案基于多样且强大的模型,使用自定义增强技术对完整的音频数据集进行训练,并使用附加特征(如站点(经度、纬度)、鸟类的稀有性和音频中其他鸟类的出现)改进了鸟类出现的预测概率的后处理算法。数据集预处理包括将原始音频数据转换为Mel频谱图,并添加来自Cornell Birdcall Identification 2020 Challenge数据集的数据。使用六种不同类型的增强技术来提高模型的鲁棒性和泛化能力。实验中使用的模型包括ResNeSt-50和EfficientNet-B0,将它们组合成一个集成模型可以获得最佳性能。
详细的实验设置:训练集包含397种鸟类的短音频录音,而测试集包含约80个声景录音。性能以“微平均F1分数”衡量,并在公共和私有排行榜上报告。训练录音由xenocanto.com的用户从不同地点上传,而测试录音来自四个特定地点。数据集预处理包括将原始音频数据转换为Mel频谱图,并添加来自Cornell Birdcall Identification 2020 Challenge数据集的数据。使用六种不同类型的增强技术来提高模型的鲁棒性和泛化能力。
详细的实验结果:实验结果使用“微平均F1分数”衡量,并在公共和私有排行榜上报告。使用的模型包括ResNeSt-50和EfficientNet-B0,将它们组合成一个集成模型可以获得最佳性能。不同模型在Train Soundscapes数据集上的OOF F1分数和TS F1分数如下:
EfficientNet-B0: OOF F1分数为0.722,TS F1分数为0.691
DenseNet-121: OOF F1分数为0.718,TS F1分数为0.66
SeResNet-50: OOF F1分数为0.725,TS F1分数为0.674
ResNeXt-50_32x4d: OOF F1分数为0.714,TS F1分数为0.63
ResNeSt-101: OOF F1分数为0.748,TS F1分数为0.705
ResNeSt-50: OOF F1分数为0.755,TS F1分数为0.706
通过采用各种后处理策略,改进了交叉验证和排行榜上的F1分数。