阅读论文——AudioLDM: Text-to-Audio Generation with Latent Diffusion Models使用潜在扩散的文本到音频的生成模型
学习链接:https://ai-scholar.tech/zh/articles/diffusion-model/audioldm
介绍:AudioLDM利用用于生成高质量图像的潜在扩散模型(LDM)生成具有连续潜在表征的语音。具体来说,它将基于Mel频谱的变异自动编码器(VAE)与基于对比语言-音频预训练(CLAP)的嵌入条件相结合,实现了高级文本条件下的语音生成
项目官方网站:https://ai-scholar.tech/zh/articles/diffusion-model/audioldm
此外,训练有素的AudioLDM可用于执行以下语音操作,无需微调。
- 语音风格转换
- 超分辨率(如视频)
- 油画
未完待续。。。