论文题目:Learning to Localize Sound Source in Visual Scenes
作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon
发表:CVPR 2018
论文链接:https://arxiv.org/pdf/1803.03849.pdf
摘要
在日常生活中,视觉事件往往伴随声音的出现。我们提出这样一个问题:机器能够像人类一样仅通过观察声音和相应的视觉场景来学习视觉场景和声音之间的对应关系,并且定位声源吗?在本文中,我们提出了一种新的无监督算法来解决视觉场景中声源定位问题。提出一种双流网络能够处理每一种模式,并且使用注意力机制进行声源定位。此外,尽管我们的网络是在无监督学习框架下制定的,但它也可以扩展到一个统一的结构,通过简单的修改就可以适用于监督和半监督学习。同时,我们收集了一个新的声源数据集用于性能评估。我们实验表明,在某些情况下,无监督方法会得到错误的结果。我们表明,加入一些监督信息,错误的结果能够得到纠正,并且可以有效地定位视觉场景中的声源位置。
主要贡献
(1)提出了一种基于注意力机制的声源定位框架。该定位框架使用声音和视频帧的联合信息作为训练数据;
(2)提出一种统一的端到端的卷积神经网络结构,适用于无监督学习、监督学习和半监督学习;
(3)收集了一个新的声源定位数据集,包含部分标注的数据。