【SVG 生成系列论文(一)】用 LLM 来生成 SVG 代码,StarVector: Generating Scalable Vector Graphics Code from Images

5 篇文章 0 订阅

在这里插入图片描述

  • 背景:可伸缩矢量图形(Scalable Vector Graphics,SVG)已经成为现代图像渲染应用程序中不可或缺的一部分,因为它们具有无限的分辨率伸缩性多样的可用性编辑起来很方便。SVG在网页开发和图形设计领域特别受欢迎。

  • 存在的问题:现有的使用深度学习进行SVG建模的方法通常难以生成复杂的SVG,并且仅限于需要大量处理和简化的简单SVG。

  • 方法:StarVector 是一种多模态SVG生成模型,它有效地集成了代码生成大型语言模型(CodeLLMs)和视觉模型。

    • 该方法利用 CLIP 图像编码器从基于像素的图像中提取视觉表示,然后通过 Adapter 适配器模块将其转换为视觉标记。
    • 这些视觉标记被预先添加到SVG标记嵌入中,并且序列由StarCoder模型使用下一个标记预测进行建模,从而有效地学习了对齐视觉和代码标记。这使得StarVector能够生成准确表示像素图像的无限制SVG。
  • 数据集:

    • 为了评估StarVector的性能,作者提出了 SVG-Bench,这是一个综合评估SVG方法的基准,涵盖多个数据集和相关指标。
    • 在这个基准中,我们引入了包括 SVG-Stack 在内的新颖数据集,这是一个大规模的真实世界SVG示例数据集,并将其用于为SVG 预训练 StarVector作为SVG的大型基础模型。
  • 任务: 输入一张位图,输出一张位图对应的 SVG 矢量图。

在这里插入图片描述StarVector 架构:

  • 像素空间中的图像通过 CLIP 编码为一组 2D 嵌入。
  • Adapter 对图像嵌入应用非线性变换,使其与Code-LLM空间对齐,获得视觉标记。
  • StarCoder 使用图像嵌入作为上下文来生成 SVG。
  • 在训练期间,任务由 SVG tokens 的下一个 token 预测来监督。
  • 在推理期间,模型使用来自输入图像的视觉标记来自回归地预测 SVG 代码。

从以下对比中可以看出,StarVector 和 GPT-4 V 有类似的 SVG 生成功能。
在这里插入图片描述

  • 19
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值