StyleDrop:生成任意风格的图片

最新推荐文章于 2024-07-23 22:38:20 发布

AI强仔

最新推荐文章于 2024-07-23 22:38:20 发布

阅读量437

点赞数 1

文章标签：深度学习人工智能

1 简介

本文根据2023年6月google research《StyleDrop: Text-to-Image Generation in Any Style》翻译总结的。

StyleDrop可以生成如下18种不同风格的图片。

StyleDrop基于Muse。Muse可以查看《Muse：采用mask transformer的图像生成模型》Muse：采用mask transformer的图像生成模型_AI强仔的博客-CSDN博客。

StyleDrop只需微调1%的参数。其表现超越基于Imagen的DreamBooth和stable diffusion。

StyleDrop包括3部分，1）基于transformer的文本-图像生成模型 Muse；2）适配器调整（adapter tuning）；3）通过反馈迭代训练。

2 StyleDrop

2.1 Muse

StyleDrop基于Muse.

设transformer 为G，采样器 S ，图片编码器E，图像解码器D。 T将文本提示转换为embedding,G再将文本embedding转为logit l（对应视觉token序列）。公式如下：

G是基于大量图像-文本对训练的，使用如下mask 视觉token损失：

2.2 Parameter-Efficient Fine-Tuning

针对transformer G，增加了一个学习参数，学习stytle，进行适配器调整（adapter tuning）。

最终损失函数如下：

2.3 通过反馈迭代训练

避免style中文本信息的泄露。

构建一个新的训练数据，其含成功的图像-文本对，使用上面公式3进行训练。迭代训练（Iterative Training）可以避免文本信息的泄露。

有两种方式构建训练，一种是基于 CLIP feedback (CF)、Human Feedback (HF) 。CF就是比较CLIP分数，哪个和风格图片接近。HF是基于人类的评价反馈。

2.4 从两个采样

结合dreamBooth 和StyleDrop，有能力同时进行style和内容（content）个性化。结合公式如下：

3 实验

如下图a列，StyleDrop的效果好于其他方法。

不同迭代训练的结果比较。可以看到基于CLIP分数和人力的效果好，如下图。

可以进行细粒度的style控制，如下图的颜色偏移（color offset）、渐变（gradation）、锐角（ sharp corner）。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
StyleDrop:生成任意风格的图片

StyleDrop可以生成如下18种不同风格的图片
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。