开源模型StarVector: 从图像和文本生成可缩放矢量图形代码

在这里插入图片描述

StarVector: 从图像和文本生成可缩放矢量图形代码

1. 研究背景与问题定义

  矢量图形的重要性 :可缩放矢量图形(SVG)因其可缩放性和通用性,在现代图像渲染中占据重要地位。将光栅图像转换为矢量图形的任务具有挑战性,传统方法在语义理解和生成紧凑、精确的矢量图形方面存在不足。
  研究目标 :提出一种多模态大型语言模型(MLLM),能够直接从图像和文本指令生成可缩放矢量图形代码(SVG),在图像矢量化和文本驱动的 SVG 生成任务中实现更优性能。

2. 核心技术创新

模型架构 :
  多模态架构 :StarVector 是一种多模态大型语言模型,能够同时处理图像和文本输入,生成可编译的 SVG 代码。它通过图像编码器将图像转换为视觉标记,与文本嵌入一起输入到变换器语言模型中进行训练和生成。
  视觉标记生成 :使用 Vision Transformer(ViT)作为图像编码器,将图像分割成小块并转换为隐藏特征,通过非线性适配器将这些特征投影到语言模型的嵌入空间,形成视觉标记。
  语言建模 :采用 StarCoder 作为语言模型,学习图像矢量化和文本到 SVG 生成任务中的指令、视觉特征和 SVG 代码序列之间的关系,通过自回归方式生成 SVG 代码。
  SVG-Stack 数据集 :创建了一个包含 200 万样本的大型数据集 SVG-Stack,用于训练 StarVector。该数据集包含多样化的 SVG 样本,涵盖不同语法结构、模板方法和框架特定实现,支持图像到 SVG 和文本到 SVG 的多样化任务。
  SVG-Bench 评估基准 :开发了一个全面的评估框架 SVG-Bench,涵盖 10 个数据集和 3 项任务(图像到 SVG、文本到 SVG 和图表生成),引入 DinoScore 等更符合人类视觉感知的评估指标,以解决传统像素级指标(如 MSE)在评估矢量图形质量方面的不足。

3. 实验与结果

实验设置 :
  在 SVG-Stack 数据集上训练 StarVector(1B 和 8B 版本),并在其他数据集上进行微调。使用多种基线模型进行比较,包括传统图像处理方法(如 Potrace、VTracer、Autotrace)和深度学习方法(如 DeepSVG、Im2Vec、LIVE)以及大型语言模型(如 GPT-4、CodeLlama)。
主要结果 :
图像矢量化任务 :
  StarVector 在 DinoScore 指标上优于其他模型,在 8 个基准中的 6 个上取得最高分,生成的 SVG 文件更小且更符合语义,有效利用 SVG 原语,避免了传统方法中因过多路径导致的文件膨胀和视觉伪影。
文本到 SVG 生成任务 :
  StarVector 在 SVG-FIGR 和 SVG-Stack 数据集上优于基线模型,生成的 SVG 图形在语义准确性和视觉质量方面表现更好。
  图表生成任务 :StarVector 是唯一能够有效生成图表的模型,能够应用所需的矩形、箭头和文本等原语,而其他方法生成的多是试图复制结构和颜色的斑点和曲线。
人类评估 :
  通过人类评估进一步验证了 StarVector 的优势,参与者在各种设置下更倾向于 StarVector 的输出,尤其是在 SVG 图表任务中,这表明像素级指标(如 MSE、SSIM)与人类视觉感知之间存在脱节,DinoScore 与人类评估结果具有更强的相关性。

4. 优势与贡献

性能优势 :
  StarVector 在图像矢量化和文本驱动的 SVG 生成任务中,相较于传统方法和深度学习基线模型,能够生成更紧凑、语义更丰富的 SVG 文件,有效利用 SVG 原语,避免了传统方法中因过多路径导致的文件膨胀和视觉伪影。
技术创新 :
  首次将多模态大型语言模型应用于 SVG 生成任务,通过直接在 SVG 代码空间中进行操作,结合视觉理解,实现了对矢量图形的紧凑和精确表示。
数据与评估贡献 :
  创建了大规模的 SVG-Stack 数据集和全面的 SVG-Bench 评估基准,为矢量图形生成任务提供了丰富的训练数据和统一的评估标准,推动了该领域的研究和发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值