论文导读：[NeurIPS2020]Denoising Diffusion Probabilistic Models

TianwenZhou

已于 2023-08-10 16:25:17 修改

阅读量107

点赞数 1

文章标签： stable diffusion 深度学习

于 2023-08-10 16:11:01 首次发布

本文链接：https://blog.csdn.net/weixin_46125392/article/details/132212249

版权

核心思想：描述状态转移的函数，当前步骤的Transmittion Matrix只依赖于上一步的状态

参考：https://www.bilibili.com/video/BV14c411J7f2/?spm_id_from=333.337.search-card.all.click&vd_source=14728bbd15d8b77a712e34c0e81c1d86

在数据集中采样（一个batch是4张图），得到X0，其服从分布q(X0)
t在1到T内随机取数（轮数不固定）
找严格服从正态分布的噪声ε
梯度下降更新参数θ，输入的是 $\sqrt{\bar{\alpha_t}}x_0+\sqrt{1-\bar{\alpha_t}}\epsilon = x_t$ （即为一张Noisy图片）和轮次t（即为位置编码，需要用sin&cos进行time embedding，能否用其他embedding方法？）

即为真实值与预测值之间的差，作为loss function

这当中 $\epsilon_\theta$ 是一个模型，是训练所得到的结果，输出结果时，每个位置都要生成一个噪音点

常规UNet结构见：UNet OnePage(WIP)

训练过程：

随机选择一个训练样本->从1-T随机抽样一个t->随机产生噪声-破坏后的原图->输入网络预测噪声->计算产生的噪声和预测的噪声的L2损失->计算梯度并更新网络

关注