- SVG 生成系列论文(一) 和 SVG 生成系列论文(二) 分别介绍了 StarVector 的大致背景和详细的模型细节。
- SVG 生成系列论文(三)和 SVG 生成系列论文(四)则分别介绍实验、数据集和数据增强细节。
- SVG 生成系列论文(五)介绍了从光栅图像(如 PNG、JPG 格式)转换为矢量图形(如 SVG、EPS 格式)的关键技术-像素预过滤(pixel prefiltering), Diffvg 这篇论文也是 SVG 生成与编辑领域中 “基于优化”方法的开创性研究。
在本文中,我们将继续介绍一种非优化方法(直接生成 SVG 代码)的技术路线,这项工作名为 IconShop。IconShop 是在 StarVector 之前的同类研究,为这一技术路线的发展奠定了基础。本篇简要介绍背景和应用,后续文章将进一步介绍技术细节与相关代码。
论文名:IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers (Siggraph Asia 2023)
文章提出的模型输入为文本,模型输出为单色的、相对简单的矢量图 icon。
SVG 背景:可伸缩矢量图形 (SVG) 是一种流行的矢量图像格式,因其对交互性和动画的良好支持而广受欢迎。尽管 SVG 具有吸引力的特性,但由于需要掌握 SVG 语法或熟悉专业编辑软件的高学习曲线,用户自定义 SVG 内容仍然具有挑战性。
研究背景:最近在文本到图像生成方面的进展激发了研究人员探索矢量图形合成的兴趣,方法包括基于图像的方法(即文本→光栅图像→矢量图形),结合文本到图像生成模型(文生图)与图像矢量化(例如 VTracer 等工具、或者 Diffvg、Im2Vec 等工作),或基于语言的方法(即文本→矢量图形脚本),通过预训练的大型语言模型。然而,这些方法在生成质量、多样性和灵活性方面仍存在局限性。
具体工作:
- 论文提出了 IconShop 的文本引导矢量图标合成方法,使用自回归变换器(autoregressive transformers)。
- 方法成功的关键在于将 SVG 路径(及作为指导的文本描述)序列化并标记化为一个独特的可解码标记序列。
- 这种方式能够利用自回归变换器的序列学习能力,同时实现无条件和文本条件的图标合成。
实验结果:
4. 通过对带有文本描述的大规模矢量图标数据集进行标准训练以预测下一个词元(token),所提出的 IconShop 在图标合成能力上,无论是定量(使用 FID 和 CLIP 分数)还是定性(通过正式的主观用户研究)方面,都超过现有的基于图像和基于语言的方法。
5. 同时,作者观察到在生成多样性方面的显著改进,这通过客观的独特性(Uniqueness)和新颖性(Novelty)指标得到验证。
应用场景
除 Fig.1 提到的基础文字生成 svg icon 外,作者展示了 IconShop 在多个新颖的图标合成任务中的灵活性,包括图标编辑、图标插值、图标语义组合和图标设计自动建议。
-
图标编辑
得益于通过“因果”掩码策略实现的非自回归和自回归建模的统一,IconShop 可以实现图标编辑,如图 7 所示。
IconShop 能够基于双向上下文填充缺失的内容,无论是在随机生成还是文本引导生成的场景中(下图可知双向中,左边代表文本、右边代表 SVG)。这种方法能够精确、一致且多样地恢复图标中缺失的部分。
-
图标插值
该模型能够实现 2 个文本 embedding 向量间的插值,如图 8 所示。 -
图标语义组合
也能够产生创新且富有创意的组合,如图 9 所示。 -
图标设计自动建议
自动图标生成的一个优势在于能够帮助设计师和非专业人士表达他们的创意。此类自动化系统的一个理想功能是能够建议画布上后续路径的可能位置,这将显著提高工作效率和生产力。依靠自回归变换器,作者训练的 IconShop 能够预测用户在图标创作过程中可能选择的下一个路径(见图 10)。