是一种无需用户提供 Mask 即可完成重绘的技术,可以在 HF 上免费使用。 它的原理是在构建数据集时,利用 VLM 和 LLM 通过先从图片中移除对象,然后再添加回去,并训练 AI 理解如何根据文字提示词在图片中添加对象。