扩散模型
文章平均质量分 93
wshzd
机器学习,深度学习,NLP,强化学习
展开
-
AIGC之Image2Video(一)| Animate Anyone:从静态图像生成动态视频,可将任意图像角色动画化
在训练过程中,使用了两个阶段的训练,在第一个训练阶段,采样单个视频帧,并调整大小和中心裁剪到768×768的分辨率,batch size设置为64,训练30000步;在之前的研究中,重点关注图像驱动生成,大多数方法都采用CLIP图像编码器作为交叉注意中的文本编码器,然而,这种设计未能解决与细节一致性相关的问题。虽然ReferenceNet引入了与去噪UNet相当数量的参数,但在基于扩散的视频生成中,所有视频帧都要进行多次去噪,而ReferenceNet在整个过程中只需要提取一次特征。原创 2023-12-06 15:32:44 · 4429 阅读 · 0 评论 -
扩散模型实战(十四):扩散模型生成音频
在之前的文章中,我们主要介绍了扩展模型在文本生成和文本生成图像的应用,本文将介绍在音频领域的应用。加载预训练好的音频扩散模型Audio Diffusion(用于生成音频的梅尔谱图)对pipe进行一次采样采样结果,如下图所示:上述代码中,rate参数表示音频的采样率,下面我们查看一下音频序列和频谱音频并非由扩散模型直接生成的,而是类似于无条件图像生成管道那样,使用一个2D UNet网络结构来生成音频的频谱,之后经过后处理转换为最终的音频。原创 2023-12-05 14:39:04 · 1215 阅读 · 0 评论