第四十周周报

学习目标:

一、Stable Diffusion 论文

学习时间:

2023.6.3-2023.6.9

学习产出:

一、模型进展

相比前两周的结果,本周改进了一下参数,FID达到了9

前两周结果为10.258
在这里插入图片描述
本周相比前两周FID降低1
在这里插入图片描述

二、High-Resolution Image Synthesis with Latent Diffusion Models论文

结构
在这里插入图片描述
训练之前需要预训练一个自编码器(包括编码器ε和解码器D)。利用编码器对图片进行压缩,然后在潜在表示空间做扩散操作,最后使用解码器恢复到原始像素空间,使用自编码器的优点是只需要训练一次就能将其用在不同的任务,方便将模型从图像推广到音频、视频、文本等领域。

感知压缩
扩散模型训练分为两个阶段,第一个阶段是训练自编码器,学习到一个在感知上等同于图像控件的潜在表示空间,同时作者使用KL-reg和VQ-reg两种正则化的方法避免潜在表示空间出现高度异化。第二阶段则是训练扩散模型,使用的模型为time-conditional UNet,扩散过程与其他扩散模型没有区别。
具体来说,给定图像 在这里插入图片描述先利用一个编码器将图像编码到潜在表示空间在这里插入图片描述,其中 在这里插入图片描述,然后再用解码器从潜在表示空间重建图片在这里插入图片描述

潜在表示空间
潜在扩散模型中,引入了预训练的感知压缩模型,它包括一个编码器和一个解码器。这样在训练时就可以利用编码器得到Zt,从而让模型在潜在表示空间中学习,相应的目标函数如下:
在这里插入图片描述

条件机制
除了无条件图像生成外,也可以进行条件图像生成,这主要是通过拓展得到一个条件时序去噪自编码器在这里插入图片描述
来实现的,这样就可通过 y来控制图片合成的过程。论文中通过在UNet主干网络上增加Cross-Attention机制来实现在这里插入图片描述。为了能够从多个不同的模态预处理y,论文引入了一个领域专用编码器(domain specific encoder)Tθ,它用来将y映射为一个中间表示在这里插入图片描述,这样就可以引入其他条件(文本、类别、layout等等)。最终模型通过一个Cross-Attention层映射将控制信息融入到UNet的中间层,Cross-Attention层的实现如下:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值