dreambooth
https://arxiv.org/pdf/2208.12242.pdf
https://github.com/XavierXiao/Dreambooth-Stable-Diffusion
DreamBooth:主题驱动微调文本到图像扩散模型
问题:现有大型文本到图像模型模型缺乏在给定参考集中模仿对象外观以及生成新场景的能力。
方法:提出了一种文本到图像扩散模型“个性化”的新方法。给定主题的几张图像作为输入,微调预训练的文本到图像模型,使其学会将唯一标识符与该特定主题绑定。一旦主体被嵌入到模型的输出域中,唯一标识符就可以用于合成主体在不同场景中的新颖高质量图像。通过利用模型中嵌入的语义先验和新的自生类特定先验损失,能够在参考图像中没有出现的不同场景、姿势、视图和光照条件下合成主体。
Method
给定3-5张随意拍摄的图像,不加任何文本描述,目标是生成具有高细节保真度和文本提示引导变化的新图像。示例变化包括更改对象位置、更改对象属性(例如颜色或形状)、修改对象的姿势、视点和其他语义修改。不对输入图像捕获设置施加任何限制,并且主题图像可以有不同的上下文。
文本到图像模型的个性化
首要任务是将主题实例植入模型的输出域,以便可以查询模型以获取主题的各种新颖图像。
为小样本个性化设计prompt
目标是将一个新的(unique identifier, subject)对“植入”到扩散模型的“字典”中。
将主题的所有输入图像标记为“a [identifier] [class noun]”。其中 [identifier] 是链接到主题的唯一标识符,[class noun] 是主题的粗略类描述符(例如猫、狗、手表等)。类描述符可以由用户提供或使用分类器获得。
特定类别的先验损失
用自生成的样本来监督模型,这允许生成类先验的不同图像,并保留有关类的先验知识,以便可以与有关主题实例知识结合使用。
生成数据
通过在具有随机初始噪声
和条件向量 损失变为:
Applications
语境重构
可以使用描述性提示(“a [V] [class noun] [context description]”)为不同描述中的特定主题生成新颖的图像。
能够根据现有主题生成新的姿势和结构,具有输入图片中不存在的场景结构和场景中主题的逼真组合(例如接触、阴影、反射)。
新视图
在新颖的视角下呈现主题。例从背后、下方或上方看到这只特定的猫。
风格化
给定提示“a painting of a [V] [class noun] in the style of [famous painter]”或“a statue of a [V] [class noun] in the style of [famous sculptor]”,能够根据特定艺术风格生成新颖的图片,同时保留主题。例如,“Michelangelo”,生成了一个在输入图像中不存在的新颖的姿势。
属性修改
修改主题属性。用以下结构的句子提示模型:“a cross of a [V] dog and a [target species] ”。
Limitations
(1)罕见的提示上下文无法准确生成图片。可能的原因是这些提示文本的先验较弱,或者由于训练集中共现的概率较低而难以同时生成主题和指定概念。
(2)其中主体的外观由于提示的上下文而发生变化,如图所示,背包的颜色发生变化。
(3)过拟合:当提示与训练集的原始设置相似时,容易产生对真实图像的过度拟合。
其他限制:
(1)某些种类比其他种类更容易学习(例如狗和猫)。
(2)对于较少见的主题,模型无法产生较多的主题变体。
(3)主体的保真度也存在差异,一些生成图像可能会产生错误偏差,这取决于模型的先验和语义修改的复杂性。