1 简介
本文根据2023年6月google research《StyleDrop: Text-to-Image Generation in Any Style》翻译总结的。
StyleDrop可以生成如下18种不同风格的图片。
StyleDrop基于Muse。Muse可以查看《Muse:采用mask transformer的图像生成模型》Muse:采用mask transformer的图像生成模型_AI强仔的博客-CSDN博客。
StyleDrop只需微调1%的参数。其表现超越基于Imagen的DreamBooth和stable diffusion。
StyleDrop包括3部分,1)基于transformer的文本-图像生成模型 Muse;2)适配器调整(adapter tuning);3)通过反馈迭代训练。
2 StyleDrop
2.1 Muse
StyleDrop基于Muse.
设transformer 为G,采样器 S ,图片编码器E,图像解码器D。 T将文本提示转换为embedding,G再将文本embedding转为logit l(对应视觉token序列)。公式如下:
G是基于大量图像-文本对训练的,使用如下mask 视觉token损失:
2.2 Parameter-Efficient Fine-Tuning
针对transformer G,增加了一个学习参数,学习stytle,进行适配器调整(adapter tuning)。
最终损失函数如下:
2.3 通过反馈迭代训练
避免style中文本信息的泄露。
构建一个新的训练数据,其含成功的图像-文本对,使用上面公式3进行训练。迭代训练(Iterative Training)可以避免文本信息的泄露。
有两种方式构建训练,一种是基于 CLIP feedback (CF)、Human Feedback (HF) 。CF就是比较CLIP分数,哪个和风格图片接近。HF是基于人类的评价反馈。
2.4 从两个采样
结合dreamBooth 和StyleDrop,有能力同时进行style和内容(content)个性化。结合公式如下:
3 实验
如下图a列,StyleDrop的效果好于其他方法。
不同迭代训练的结果比较。可以看到基于CLIP分数和人力的效果好,如下图。
可以进行细粒度的style控制,如下图的颜色偏移(color offset)、渐变(gradation)、锐角( sharp corner)。