视听导航任务定义及发展历程
视听导航任务(AVN):智能体需要根据视觉和听觉的感知,在复杂的三维场景中导航到不断发出声音的对象。(该任务的默认的发声是持续不断的发声)
SoundSpace【3】首次提出了视听导航任务,并且提出了baseline:AV-NAV。
论文【7】将AVN任务分解成预测声源的相对位置和导航到给定视觉输入的位置。
AV-WAN【4】进一步使智能体能够通过occupancy map导航,以经过中间航路点。
论文【11】谈论了在具有多个非平稳音频源的复杂场景中学习,可以增强泛化能力,但是需要复杂的环境重构。
还有一些研究在distractor attacks【12】、short-duration sounds【2】、exploration【6】、sound separation【8】。
待解决的问题
虽然现存的方法通过精心设计的路径规划或者复杂的任务设置来提高导航的性能,但是没有一种方法能够在任务设置不变的情况下提高模型对未听声音的泛化能力。
因此,本文要解决的问题是提高模型对未听声音的泛化能力。
本文方法
为了减少泛化误差,本文提出了一种新的音频特征相似性优化方法(Audio Feature Similarity Optimisation, AFSO)。该方法基于对比学习来实现。
Audio Feature Similarity Optimisation
现在的AVN框架将声音信号编码到双耳音频频谱上。该方法旨在学习source和receiver之间的空间内关系,例如sounding objects和agent的相对位置,但是容易收到不同声音类型的区分。
基于对比学习,本文提出AFSO方法,以减轻声音类型的影响,专注于学习空间关系。
引导具有辅助相似性损失的音频编码器。在图1(a)中,最大化两个音频观测之间的特征相似度,这两个音频观测来自于不同的声源,并且处于对智能体而言的相同的相对位置。最小化在不同的相对发生位置处的两个音频观测之间的特征相似度。因此,audio encoder可以集中注意力在指示目标位置的目标驱动的模式上,而不过度拟合到特定的声音。
具体地,一对双耳音频信号仅在它们源自相同场景内的相同发射接收器位置时才被认为是相似的。这样的两个音频信号将形成正对,而所有其他对将被认为是负样本。如图1(b)所示,为了有效的形成训练对,我们直接模拟对中的第二个元素,而不是从收集的轨迹中搜索匹配的元素。
对于每个双耳音频信号,通过卷积当前step处的房间脉冲响应和alternative类型的source sound,来模拟正对声学信号。然后将音频数据转换为双耳频谱图作为音频编码器的输入。
然而,这样的公式化可能潜在地引入假阴性(FN)对,其中轨迹中的相同或相似的音频观测可能被视为负样本。为了减少FN对的出现,我们只对随机采样的N个音频观察的轨迹的子集计算alternative audio和相似性损失。因此,我们每批获得2N个数据样本,包括N个原始声音和N个相应的模拟音频信号。
对正样本对,使用InfoNCE损失计算辅助相似性损失:
Source Sound Augmentation
1、声音反转:以p的概率反转输入音频信号
2、声音混合:对两个音频信号(可能相反)进行采样,并将它们混音为,其中λ是从对称β分布中采样的标量。
实验