Diffusion初理解

本文介绍了扩散模型的基本原理,包括其概率推导和在生成模型中的应用,如文生图和视频生成。重点讨论了训练方法、反向过程以及面临的挑战,如计算量大和模态融合的需求,以及NVIDIABlackwell等硬件在处理大模型中的角色。
摘要由CSDN通过智能技术生成

扩散模型Diffusion

原理:其实是概率推导

1 背景

1.1前提:生成模型

  • 对抗网络:GAN
  • 自动微分编码器:VAE
  • Transformer

1.2奠基论文

Denoising Diffusion Probabilistic Models(2020)

1.3资料

  • Understanding Diffusion Model:A Undefined Perspective
  • 知乎-浅谈sora未来的千倍推理算力需求

2 生成模型的重要组成部分

2.1 前向过程diffusion process:add noise

根据β值(加噪声的力度),人为给一张好的图片逐步/一次性加上噪声。

2.2 反向过程denoise process:remove noise

给一张模糊的图片逐步/一次性去掉噪声。
下标越小越干净。

3 训练思路

3.1训练

  • 取一张图片
  • 模拟一段噪声
  • 把噪声加进图片里
  • 模拟噪声

3.2推理

  • 取一张带噪声的图片
  • 模拟一段噪声
  • 图片-预测可能的噪声值(达到去噪)
  • 再加一个小噪声,随机扰动,增加随机性(一些随机灵感,保证每次的结果都有一点点不同)

4 应用

文生图

三大架构:文字------【Text-encoder】---->token+random noise-----【Generation Model】----->压缩图(隐式表示,还不是像素空间)----【Decoder】----->图片

  • Stable Diffusion:Latent Space—Pixel Space
  • DALL·E
  • Google:Imagen:中间生成的不是隐式产物,而是小图。

二维的(比如stable diffusion)用Unet处理二维数据。

文生视频

膨胀了一个维度,3D-Layer,3D-Unet

  • VDM
  • Sora

长视频生成

把长视频看成很多段重叠的短视频
长噪声–>很多段重叠的短噪声

Muti-diffusion

①单独训练不同模态的encoder、decoder模型:文生图+文生视频
②在中间的diffusion step生成的时候,把需要不同的模态结合起来(在接收不同模态的输入,生成不同模态的输出)

5 challenge&对比

由于计算量大,网络结构大多是unet(二维的)
最近Sora用的是transformer(一维的)

  • 对算力有很大要求
  • NVIDIA Blackwell------专门跑大模型的芯片
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值