今天咱们来看 ICCV2023 最佳论文Adding Conditional Control to Text-to-Image Diffusion Models,又称为ControlNet。提到图像生成Finetuning工程方法,有Textual inversion、DreamBooth、LoRA、T2I-Adapter以及ControlNet,其中最著名的当属ControlNet。它也是Stable Diffusion核心插件,业内把ControlNet 称为精确控制 AI 图像生成的破冰方案。目前文生图经典的做法是集成Stable Diffusion、LoRA、ControlNet一起使用。
- 本文第一部分,论文精读,重点内容做了备注、解释。
- 本文第二部分,模型训练。自定义“数据集”进行模型训练,譬如训练智驾场景文生图。
- 本文第三部分,代码讲解。重点讲了LDM的encoder即ControlNet的实现代码、LDM参数被复制代码、零卷积和权重初始化为零的巧妙设计。
- 本文第四部分,Stable Diffusion+LoRA+Con