论文阅读：Towards Generalisable Audio Representations for Audio-Visual Navigation 面向视听导航的通用音频表示方法

最新推荐文章于 2024-09-16 17:40:25 发布

帅你一脸的臭宝

最新推荐文章于 2024-09-16 17:40:25 发布

阅读量130

点赞数

文章标签：论文阅读音视频

本文链接：https://blog.csdn.net/weixin_45800242/article/details/130820102

版权

文章提出了AudioFeatureSimilarityOptimisation(AFSO)方法，通过对比学习来减少视听导航任务中的泛化误差。AFSO旨在学习空间关系而非声音类型，通过模拟声学信号和源声音增强策略来优化音频编码器，从而提高模型对未听声音的泛化能力。

摘要由CSDN通过智能技术生成

视听导航任务定义及发展历程

视听导航任务（AVN）：智能体需要根据视觉和听觉的感知，在复杂的三维场景中导航到不断发出声音的对象。（该任务的默认的发声是持续不断的发声）

SoundSpace【3】首次提出了视听导航任务，并且提出了baseline：AV-NAV。

论文【7】将AVN任务分解成预测声源的相对位置和导航到给定视觉输入的位置。

AV-WAN【4】进一步使智能体能够通过occupancy map导航，以经过中间航路点。

论文【11】谈论了在具有多个非平稳音频源的复杂场景中学习，可以增强泛化能力，但是需要复杂的环境重构。

还有一些研究在distractor attacks【12】、short-duration sounds【2】、exploration【6】、sound separation【8】。

待解决的问题

虽然现存的方法通过精心设计的路径规划或者复杂的任务设置来提高导航的性能，但是没有一种方法能够在任务设置不变的情况下提高模型对未听声音的泛化能力。

因此，本文要解决的问题是提高模型对未听声音的泛化能力。

本文方法

为了减少泛化误差，本文提出了一种新的音频特征相似性优化方法（Audio Feature Similarity Optimisation, AFSO）。该方法基于对比学习来实现。

Audio Feature Similarity Optimisation

现在的AVN框架将声音信号编码到双耳音频频谱上。该方法旨在学习source和receiver之间的空间内关系，例如sounding objects和agent的相对位置，但是容易收到不同声音类型的区分。

基于对比学习，本文提出AFSO方法，以减轻声音类型的影响，专注于学习空间关系。

引导具有辅助相似性损失的音频编码器。在图1（a）中，最大化两个音频观测之间的特征相似度，这两个音频观测来自于不同的声源，并且处于对智能体而言的相同的相对位置。最小化在不同的相对发生位置处的两个音频观测之间的特征相似度。因此，audio encoder可以集中注意力在指示目标位置的目标驱动的模式上，而不过度拟合到特定的声音。

具体地，一对双耳音频信号仅在它们源自相同场景内的相同发射接收器位置时才被认为是相似的。这样的两个音频信号将形成正对，而所有其他对将被认为是负样本。如图1（b）所示，为了有效的形成训练对，我们直接模拟对中的第二个元素，而不是从收集的轨迹中搜索匹配的元素。

对于每个双耳音频信号 $b_k$ ，通过卷积当前step处的房间脉冲响应和alternative类型的source sound，来模拟正对声学信号 $\widetilde{b_k}$ 。然后将音频数据转换为双耳频谱图作为音频编码器的输入。