【论文导读】SoundNet: Learning Sound Representations from Unlabeled Video

最新推荐文章于 2024-06-08 09:57:42 发布

z小白

最新推荐文章于 2024-06-08 09:57:42 发布

阅读量2.5k

点赞数 3

分类专栏：论文导读文章标签： SoundNet 声音识别自监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzc15806/article/details/80669883

版权

论文题目：SoundNet: Learning Sound Representations from Unlabeled Video作者：Yusuf Aytar, Carl Vondrick, Antonio Torralba发表：29th Conference on Neural Information Processing Systems (NIPS 2016)论文链接：https...

摘要由CSDN通过智能技术生成

论文题目：SoundNet: Learning Sound Representations from Unlabeled Video

作者：Yusuf Aytar, Carl Vondrick, Antonio Torralba

发表：29th Conference on Neural Information Processing Systems (NIPS 2016)

论文链接：https://arxiv.org/pdf/1610.09001.pdf

开源地址：https://github.com/cvondrick/soundnet

摘要

通过利用收集的大量未标记声音数据，我们学习了丰富的自然声音表征。使用两百万未标记的视频，我们利用时间和声音的自然同步来学习声学表征。未标记视频的优势是在经济有限情况下也能获得大规模的、包含有用信号的数据。我们提出一种 student-teacher 训练流程，使用未标记视频作为桥梁，能将来自视觉识别模型的具有判决信息的知识迁移到声音。在声学场景/目标分类基准上，我们的声音表征对前沿结果有了很大的改进。可视化数据表明，即使在没有 ground truth 标记的情况下训练，一些高层次语义也可在该声音网络中自动生成。

主要贡献

（1）大规模无标签数据集：从Flickr收集了200w+的视频数据，时长1 year+；

（2）首次提出视觉和声音联合训练，学习丰富的声音表征。

文章理解

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【论文导读】SoundNet: Learning Sound Representations from Unlabeled Video

论文题目：SoundNet: Learning Sound Representations from Unlabeled Video作者：Yusuf Aytar, Carl Vondrick, Antonio Torralba发表：29th Conference on Neural Information Processing Systems (NIPS 2016)论文链接：https...
复制链接

扫一扫

专栏目录

z小白 CSDN认证博客专家 CSDN认证企业博客

码龄8年

79: 原创

3万+: 周排名

169万+: 总排名

169万+: 访问

: 等级

8890: 积分

546: 粉丝

1128: 获赞

339: 评论

4298: 收藏

私信

关注

热门文章

分类专栏

深度学习 24篇
声音识别教程 12篇
Keras 7篇
TensorFlow 5篇
python 22篇
声音识别 13篇
机器学习 3篇
keras 19篇
人工智能 2篇
matlab 4篇
论文导读 2篇
深度学习 25篇
社会百态 1篇
杂七杂八 6篇
Ubuntu 5篇
PyTorch 2篇
数据结构与算法 2篇
爬虫 1篇
Java 1篇
声源定位 1篇

最新评论

1. 数据集准备和工具安装
IT123456ZXM: 博主你好，代码下载之后老报错，waveplot和logamplitude这两个找不到，请问博主能给出对应安装包的版本号吗其他运行成功的可以把自己安装包的版本号发一下吗
1. 数据集准备和工具安装
IT123456ZXM: 博主你好，代码下载之后老报错，waveplot和logamplitude这两个找不到，请问博主能给出对应安装包的版本号吗
Pytorch编译安装warp-CTC
m0_71516629: win10怎么弄啊
音频处理库—librosa的安装与使用
m0_59781092: 你好，我用pip安装librosa的时候报错failed with initial frozen solve. Retrying with flexible solve.该怎么解决呀
Jupyter Notebook 插入图片的几种方法
qq_53681920: 感谢大佬，可以插入了，很方便

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。