论文题目:SoundNet: Learning Sound Representations from Unlabeled Video
作者:Yusuf Aytar, Carl Vondrick, Antonio Torralba
发表:29th Conference on Neural Information Processing Systems (NIPS 2016)
论文链接:https://arxiv.org/pdf/1610.09001.pdf
开源地址:https://github.com/cvondrick/soundnet
摘要
通过利用收集的大量未标记声音数据,我们学习了丰富的自然声音表征。使用两百万未标记的视频,我们利用时间和声音的自然同步来学习声学表征。未标记视频的优势是在经济有限情况下也能获得大规模的、包含有用信号的数据。我们提出一种 student-teacher 训练流程,使用未标记视频作为桥梁,能将来自视觉识别模型的具有判决信息的知识迁移到声音。在声学场景/目标分类基准上,我们的声音表征对前沿结果有了很大的改进。可视化数据表明,即使在没有 ground truth 标记的情况下训练,一些高层次语义也可在该声音网络中自动生成。
主要贡献
(1)大规模无标签数据集:从Flickr收集了200w+的视频数据,时长1 year+;
(2)首次提出视觉和声音联合训练,学习丰富的声音表征。