昇思训练营day14学习心得-Diffusion扩散模型

最新推荐文章于 2024-07-19 22:46:50 发布

沐礼607

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量130

点赞数 8

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_66941876/article/details/140502589

版权

关于扩散模型（Diffusion Models）

扩散模型是一种基于马尔可夫链的生成模型，它从纯噪声开始，通过逐步去噪过程，最终生成一个实际图像。这种模型通过神经网络学习如何将噪声转换为数据样本。

实现原理

Diffusion 前向过程：所谓前向过程，即向图片上加噪声的过程。

Diffusion 逆向过程：如果说前向过程(forward)是加噪的过程，那么逆向过程(reverse)就是diffusion的去噪推断过程。

构建Diffusion模型

位置向量

由于神经网络的参数在时间（噪声水平）上共享，为了让神经网络能够区分不同的时间步，作者使用正弦位置嵌入来编码时间步长（噪声水平）。

ResNet/ConvNeXT块：U-Net模型的核心构建块可以是ResNet或ConvNeXT。

Attention模块

在卷积块之间添加注意力机制（如multi-head self-attention或LinearAttention），以增强模型捕捉全局信息的能力。SiLU激活函数也被用于提高网络的非线性表达能力。

Phil Wang使用了两种注意力变体：一种是常规的multi-head self-attention，另一种是LinearAttention。其时间和内存要求在序列长度上线性缩放，而不是在常规注意力中缩放。

组归一化：在卷积/注意层之后应用组归一化，以稳定训练过程并加速收敛。

条件U-Net：定义整个神经网络结构。

数据准备与处理

定义一个正则数据集（如Fashion-MNIST、CIFAR-10或ImageNet），并对数据集进行预处理，包括缩放图像大小、归一化像素值以及应用数据增强技术（如随机水平翻转）。

关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
昇思训练营day14学习心得-Diffusion扩散模型

定义一个正则数据集（如Fashion-MNIST、CIFAR-10或ImageNet），并对数据集进行预处理，包括缩放图像大小、归一化像素值以及应用数据增强技术（如随机水平翻转）。扩散模型是一种基于马尔可夫链的生成模型，它从纯噪声开始，通过逐步去噪过程，最终生成一个实际图像。由于神经网络的参数在时间（噪声水平）上共享，为了让神经网络能够区分不同的时间步，作者使用正弦位置嵌入来编码时间步长（噪声水平）。其时间和内存要求在序列长度上线性缩放，而不是在常规注意力中缩放。所谓前向过程，即向图片上加噪声的过程。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。