音频/语音处理-综述

xys430381_1

已于 2022-12-11 21:25:00 修改

阅读量1.1k

点赞数 2

分类专栏：深度学习语音处理文章标签：音频声音

于 2020-09-23 20:41:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xys430381_1/article/details/108752689

版权

深度学习同时被 2 个专栏收录

138 篇文章 56 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

音频处理库—librosa的安装与使用
 Pytorch音频处理（torchaudio的使用）

源码

1、kaggle-birdcall-resnet-baseline-training（用resnet50做鸟叫分类）
对应的kaggle竞赛页面：https://www.kaggle.com/hidehisaarai1213/inference-pytorch-birdcall-resnet-baseline

2、PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition。
github源码

3、语音合成源码合集

4、城市环境声分类（自建CNN）
mariostrbac/environmental-sound-classification

5、AST: Audio Spectrogram Transformer
改进版-自监督学习：SSAST: Self-Supervised Audio Spectrogram Transformer（代码很规范，很友好）

数据集

婴儿哭声数据集 donateacry-corpus

ubansound8K数据集

参考文献

语音识别与语音合成的论文集合：
awesome-speech-recognition-speech-synthesis-papers
语音合成的论文集合：TTS-papers

声音(音乐)分类综述（声音的基本特征：时域特征，频域特征）

keras实现声音二分类（就这代码讲解基本过程）

使用PyTorch对音频进行分类

语音合成

语音合成的一个实时模型SqueezeWave

SqueezeWave， code（~5-13x faster than real-time）

语音合成源码合集

音乐生成

ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders(2020), Yu Gu et al. [pdf]

Jukebox: A Generative Model for Music(2020) 有源码

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
音频/语音处理-综述

音频处理库—librosa的安装与使用Pytorch音频处理（torchaudio的使用）源码1、kaggle-birdcall-resnet-baseline-training（用resnet50做鸟叫分类）对应的kaggle竞赛页面：https://www.kaggle.com/hidehisaarai1213/inference-pytorch-birdcall-resnet-baseline2、PANNs: Large-Scale Pretrained Audio Neural Netwo
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。