【论文导读】Learning to Localize Sound Source in Visual Scenes

论文提出了一种双流网络结合注意力机制的无监督算法,用于在视觉场景中定位声源。该方法能适应无监督、监督和半监督学习,并在新的声源数据集上进行了验证,表明加入少量监督信息可提高定位准确性。
摘要由CSDN通过智能技术生成

论文题目:Learning to Localize Sound Source in Visual Scenes

作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon

发表:CVPR 2018

论文链接:https://arxiv.org/pdf/1803.03849.pdf


摘要

在日常生活中,视觉事件往往伴随声音的出现。我们提出这样一个问题:机器能够像人类一样仅通过观察声音和相应的视觉场景来学习视觉场景和声音之间的对应关系,并且定位声源吗?在本文中,我们提出了一种新的无监督算法来解决视觉场景中声源定位问题。提出一种双流网络能够处理每一种模式,并且使用注意力机制进行声源定位。此外,尽管我们的网络是在无监督学习框架下制定的,但它也可以扩展到一个统一的结构,通过简单的修改就可以适用于监督和半监督学习。同时,我们收集了一个新的声源数据集用于性能评估。我们实验表明,在某些情况下,无监督方法会得到错误的结果。我们表明,加入一些监督信息,错误的结果能够得到纠正,并且可以有效地定位视觉场景中的声源位置。


主要贡献

(1)提出了一种基于注意力机制的声源定位框架。该定位框架使用声音和视频帧的联合信息作为训练数据;

(2)提出一种统一的端到端的卷积神经网络结构,适用于无监督学习、监督学习和半监督学习;

(3)收集了一个新的声源定位数据集,包含部分标注的数据。


评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值