【SVG 生成系列论文(六)】如何生成 svg logo?IconShop: 通过自回归 Transformer 实现文本引导的矢量 Icon 生成

在本文中,我们将继续介绍一种非优化方法(直接生成 SVG 代码)的技术路线,这项工作名为 IconShop。IconShop 是在 StarVector 之前的同类研究,为这一技术路线的发展奠定了基础。本篇简要介绍背景和应用,后续文章将进一步介绍技术细节与相关代码。

论文名:IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers (Siggraph Asia 2023)
文章提出的模型输入为文本,模型输出为单色的、相对简单的矢量图 icon。
在这里插入图片描述
SVG 背景:可伸缩矢量图形 (SVG) 是一种流行的矢量图像格式,因其对交互性和动画的良好支持而广受欢迎。尽管 SVG 具有吸引力的特性,但由于需要掌握 SVG 语法或熟悉专业编辑软件的高学习曲线,用户自定义 SVG 内容仍然具有挑战性。

研究背景:最近在文本到图像生成方面的进展激发了研究人员探索矢量图形合成的兴趣,方法包括基于图像的方法(即文本→光栅图像→矢量图形),结合文本到图像生成模型(文生图)与图像矢量化(例如 VTracer 等工具、或者 Diffvg、Im2Vec 等工作),或基于语言的方法(即文本→矢量图形脚本),通过预训练的大型语言模型。然而,这些方法在生成质量、多样性和灵活性方面仍存在局限性。

具体工作:

  1. 论文提出了 IconShop 的文本引导矢量图标合成方法,使用自回归变换器(autoregressive transformers)。
  2. 方法成功的关键在于将 SVG 路径(及作为指导的文本描述)序列化并标记化为一个独特的可解码标记序列
  3. 这种方式能够利用自回归变换器的序列学习能力,同时实现无条件文本条件的图标合成。

实验结果:
4. 通过对带有文本描述的大规模矢量图标数据集进行标准训练以预测下一个词元(token),所提出的 IconShop 在图标合成能力上,无论是定量(使用 FID 和 CLIP 分数)还是定性(通过正式的主观用户研究)方面,都超过现有的基于图像和基于语言的方法。
5. 同时,作者观察到在生成多样性方面的显著改进,这通过客观的独特性(Uniqueness)和新颖性(Novelty)指标得到验证。

应用场景

除 Fig.1 提到的基础文字生成 svg icon 外,作者展示了 IconShop 在多个新颖的图标合成任务中的灵活性,包括图标编辑、图标插值、图标语义组合和图标设计自动建议。

  1. 图标编辑
    在这里插入图片描述
    得益于通过“因果”掩码策略实现的非自回归和自回归建模的统一,IconShop 可以实现图标编辑,如图 7 所示。
    IconShop 能够基于双向上下文填充缺失的内容,无论是在随机生成还是文本引导生成的场景中(下图可知双向中,左边代表文本、右边代表 SVG)。这种方法能够精确、一致且多样地恢复图标中缺失的部分。
    在这里插入图片描述

  2. 图标插值
    在这里插入图片描述
    该模型能够实现 2 个文本 embedding 向量间的插值,如图 8 所示。

  3. 图标语义组合
    在这里插入图片描述
    也能够产生创新且富有创意的组合,如图 9 所示。

  4. 图标设计自动建议
    在这里插入图片描述
    自动图标生成的一个优势在于能够帮助设计师和非专业人士表达他们的创意。此类自动化系统的一个理想功能是能够建议画布上后续路径的可能位置,这将显著提高工作效率和生产力。依靠自回归变换器,作者训练的 IconShop 能够预测用户在图标创作过程中可能选择的下一个路径(见图 10)。

  • 26
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值