ControlNet star量破万！2023年，AI绘画杀疯了？

最新推荐文章于 2024-08-28 10:27:16 发布

深度学习技术前沿

最新推荐文章于 2024-08-28 10:27:16 发布

阅读量288

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247527972&idx=2&sn=03b378986c79ab4fa662cbb55c089b6b&chksm=fc4dd466cb3a5d70b5155b482ab843541dbe39fb1cc8762b69e2145d7a16908b2fdf549f6732&scene=126&sessionid=0

版权

来源：机器之心

从骑马的宇航员到三次元小姐姐，在不到一年的时间里，AI 绘画似乎已经取得了革命性的进展。

这个「骑马的宇航员」由 OpenAI 2022 年 4 月推出的文生图模型 DALL・E 2 绘制。它的前辈 ——DALL・E 在 2021 年向人们展示了直接用文本生成图像的能力，打破了自然语言与视觉的次元壁。在此基础上，DALL・2 更进一步，允许人们对原始图像进行编辑，比如在画面中添加一只柯基。这一个看似简单的操作其实体现了 AI 绘画模型可控性的提升。

不过，就影响力而言，2022 年最火的文生图模型并不是 DALL・E 2，而是另一个和它功能相似的模型 ——Stable Diffusion。和 DALL・E 2 一样，Stable Diffusion 也允许创作者对生成的图像进行编辑，但优势在于，这个模型是开源的，而且可以在消费级 GPU 上运行。因此，在 2022 年 8 月发布之后，Stable Diffusion 迅速走红，短短几个月就成了最火的文生图模型。

‍

在此期间，人们也在进一步探索各种控制这类模型的方法，比如 Stable Diffusion 背后团队之一的 Runway 公司发布了一个图像擦除和替换（Erase and Replace）工具，该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述，剩下的交给程序就可以了。

‍

谷歌和波士顿大学的研究者则提出了一种「个性化」的文本到图像扩散模型 DreamBooth，用户只需提供 3~5 个样本 + 一句话，AI 就能定制照片级图像。

此外，来自 UC 伯克利的研究团队还提出了一种根据人类指令编辑图像的新方法 InstructPix2Pix，这个模型结合了 GPT-3 和 Stable Diffusion。给定输入图像和告诉模型要做什么的文本描述，模型就能遵循描述指令来编辑图像。例如，要把画中的向日葵换成玫瑰，你只需要直接对模型说「把向日葵换成玫瑰」。

进入 2023 年，一个名为 ControlNet 的模型将这类控制的灵活度推向了高峰。

ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型（如 Stable Diffusion），从而更好地控制生成图像的人物姿态、深度、画面结构等信息。

这里的额外条件以图像的形式来输入，模型可以基于这张输入图像进行 Canny 边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测（HED）、人体姿态识别等，然后在生成的图像中保留这些信息。利用这一模型，我们可以直接把线稿或涂鸦转换成全彩图，生成具有同样深度结构的图等等，通过手部关键点还能优化人物手部的生成。

这一模型在 AI 绘画领域掀起了巨浪，相关项目 GitHub star 量已破万。

项目链接：https://github.com/lllyasviel/ControlNet

虽然当前很多人只是用它来生成二次元、三次元小姐姐，但其更广泛的用途也被逐渐挖掘出来，比如房屋设计、摄影摄像、影视制作、广告设计等。在这些场景中，ControlNet 被拿来和之前的一些工具一起使用，比如处理大模型微调问题的 LoRA、视频 - 动画转换工具 EbSynth 等。这些工具的组合应用加速了 AI 绘画模型与生产过程的融合。

‍利用 ControlNet 和 EbSynth 等工具重新进行室内装潢设计。图源：https://creativetechnologydigest.substack.com/p/controlling-artistic-chaos-with-controlnet （内附完整教程）

‍利用 ControlNet 和 Houdini 工具生成 3D 模型。图源：https://www.reddit.com/r/StableDiffusion/comments/115eax6/im_working_on_api_for_the_a1111_controlnet/

用 Dreambooth 和 ControlNet 改变 2D 图像光照，可用于照片、视频的后期制作。图源：https://www.reddit.com/r/StableDiffusion/comments/1175id9/when_i_say_mindblowing_i_mean_it_new_experiments/

用 ControlNet 和 EbSynth 实现动画转真人。虽然效果还不太好，但已经显示出了把动漫改编成真人版但无需演员出镜的潜力。图源 https://www.reddit.com/r/StableDiffusion/comments/117ewr9/anime_to_live_action_with_controlnet_ebsynth_not/