学习记录(三)

李宏毅《生成式AI:Stable diffusion、DALL-E、Imagen背后共同套路》

YouTube:https://www.youtube.com/watch?v=JbfcAaBT66U

共同套路

由三部分构成:

1、Text Encoder

2、Generation Model

3、Decoder

输入的一段文字,进入Text Encoder,输出为几段向量。

上一步输出的向量加上噪声作为Generation Model的输入,经过生成模型输出一个“中间产物”,这个中间产物可以是小图(图片的压缩版本),也可以是一个latent representation。

上一步输出的“中间产物”作为Decoder的输入,经过Decoder,最后生成一张图像。

评价指标

如何去评估图像生成模型的好坏?

根据一段文字生成图像没有标准答案,即便有标准答案,就可以说生成的图像与标准答案不相符就是错误的吗。这就需要特定的指标来进行评估,经常使用的是FIDCLIP。

FID

FID需要有一个pretrain好的CNN模型。蓝色点代表生成图像通过这个分类模型所产生的representation;红色点代表真实的图像通过这个分类模型所产生的representation。这两组分布距离越接近就代表两张图片越相似。

 CLIP

Decoder(可在无标签数据上训练)

Decoder的输入有两种情况:

第一种:输入的“中间产物”为小图(Imagen)。

第二种:输入的“中间产物”为Latent Representation。此时,我们需要训练一个Auto-Encoder。

在这个Auto-Encoder中训练得到的我们所需要的Decoder。下图中,“中间产物”的h和w,可以看作是原始图片下采样后的高宽。这个“中间产物”也可以理解为小图,只不过人类无法去理解。 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值