【SVG 生成系列论文（一）】用 LLM 来生成 SVG 代码，StarVector: Generating Scalable Vector Graphics Code from Images

最新推荐文章于 2025-04-19 09:12:05 发布

多恩Stone

最新推荐文章于 2025-04-19 09:12:05 发布

阅读量1.8k

点赞数 19

分类专栏： AIGC 计算机视觉入门 LLM 文章标签： AIGC 人工智能语言模型

本文链接：https://blog.csdn.net/weixin_44212848/article/details/138587878

版权

在这里插入图片描述

背景：可伸缩矢量图形（Scalable Vector Graphics，SVG）已经成为现代图像渲染应用程序中不可或缺的一部分，因为它们具有无限的分辨率伸缩性、多样的可用性和编辑起来很方便。SVG在网页开发和图形设计领域特别受欢迎。
存在的问题：现有的使用深度学习进行SVG建模的方法通常难以生成复杂的SVG，并且仅限于需要大量处理和简化的简单SVG。
方法：StarVector 是一种多模态SVG生成模型，它有效地集成了代码生成大型语言模型（CodeLLMs）和视觉模型。
- 该方法利用 CLIP 图像编码器从基于像素的图像中提取视觉表示，然后通过 Adapter 适配器模块将其转换为视觉标记。
- 这些视觉标记被预先添加到SVG标记嵌入中，并且序列由StarCoder模型使用下一个标记预测进行建模，从而有效地学习了对齐视觉和代码标记。这使得StarVector能够生成准确表示像素图像的无限制SVG。
数据集：
- 为了评估StarVector的性能，作者提出了 SVG-Bench，这是一个综合评估SVG方法的基准，涵盖多个数据集和相关指标。
- 在这个基准中，我们引入了包括 SVG-Stack 在内的新颖数据集，这是一个大规模的真实世界SVG示例数据集&#