StyleDrop:生成任意风格的图片

1 简介

 

 

本文根据2023年6月google research《StyleDrop: Text-to-Image Generation in Any Style》翻译总结的。

StyleDrop可以生成如下18种不同风格的图片。

StyleDrop基于Muse。Muse可以查看《Muse:采用mask transformer的图像生成模型》Muse:采用mask transformer的图像生成模型_AI强仔的博客-CSDN博客

StyleDrop只需微调1%的参数。其表现超越基于Imagen的DreamBooth和stable diffusion。

StyleDrop包括3部分,1)基于transformer的文本-图像生成模型 Muse;2)适配器调整(adapter tuning);3)通过反馈迭代训练。

2 StyleDrop

2.1 Muse

StyleDrop基于Muse.

设transformer 为G,采样器 S ,图片编码器E,图像解码器D。 T将文本提示转换为embedding,G再将文本embedding转为logit l(对应视觉token序列)。公式如下:

G是基于大量图像-文本对训练的,使用如下mask 视觉token损失:

2.2 Parameter-Efficient Fine-Tuning

针对transformer G,增加了一个学习参数,学习stytle,进行适配器调整(adapter tuning)。

最终损失函数如下:

2.3 通过反馈迭代训练

避免style中文本信息的泄露。

构建一个新的训练数据,其含成功的图像-文本对,使用上面公式3进行训练。迭代训练(Iterative Training)可以避免文本信息的泄露。

有两种方式构建训练,一种是基于 CLIP feedback (CF)、Human Feedback (HF) 。CF就是比较CLIP分数,哪个和风格图片接近。HF是基于人类的评价反馈。

2.4 从两个采样

结合dreamBooth 和StyleDrop,有能力同时进行style和内容(content)个性化。结合公式如下:

3 实验

如下图a列,StyleDrop的效果好于其他方法。

不同迭代训练的结果比较。可以看到基于CLIP分数和人力的效果好,如下图。

 

可以进行细粒度的style控制,如下图的颜色偏移(color offset)、渐变(gradation)、锐角( sharp corner)。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值