【SVG 生成系列论文（二）】用 LLM 来生成 SVG 代码，StarVector: Generating Scalable Vector Graphics Code from Images

最新推荐文章于 2024-06-10 22:18:41 发布

多恩Stone

最新推荐文章于 2024-06-10 22:18:41 发布

阅读量768

点赞数 14

分类专栏： LLM AIGC 科研文章标签： python pytorch AIGC llama 语言模型

本文链接：https://blog.csdn.net/weixin_44212848/article/details/138587987

版权

AIGC 同时被 3 个专栏收录

30 篇文章 1 订阅

订阅专栏

科研

22 篇文章 0 订阅

订阅专栏

LLM

5 篇文章 0 订阅

订阅专栏

上篇 SVG 生成系列论文（一）简要介绍了 StarVector 的背景和模型结构，本篇将更详细的介绍模型细节。

在这里插入图片描述

StarVector 的模型可以分为两大块：（1）Image Encoder and Visual Tokens 和（2）CodeLLM（StarCode）

Image Encoder 和 Visual Tokens

（1）对于 Image Encoder，作者对 CLIP ViT-L/14 [57]、ConvNext [44]（均在 LAION-2B [66] 上预训练）和 VQGAN [25] 均进行了实验（如下图），在图像重建任务中使用 SVG-Stack 中的光栅图像进行了预训练。作为 Image Encoder 的输出，作者利用最后层中所有可用的隐藏表示来带来最丰富的特征。

从下图明显看出使用 CLIP ViT-L/14 作为 Image Encoder 的效果更好。
在这里插入图片描述

作者将编码器的输出 $z_{v}$ 定义为 $L_{v}$ 个嵌入序列的展平化二维网格。

对于CLIP，有 $L_{v}$ = 257个嵌入，包括CLS令牌。
对于VQGAN，使用预量化层并将它们展平以获得 $L_{v}$ = 196个嵌入。
对于ConvNext，我们展平最后的激活图以获得 $L_{v}$ = 49个嵌入。

对于 Adapter 模块将图像嵌入非线性投影到 LLM 的嵌入空间，生成一组 Visual Tokens 嵌入（或 Visual Tokens）。这种转换匹配了嵌入的维度，并将图像表示与语言模型的嵌入空间对齐，有效地将视觉和SVG代码模态连接起来，用于生成任务。

具体来说，适配器由一系列具有 Swish[58]激活函数和 Batch Normaliazation （批标准化）[33]的全连接（FC）层组成。

CodeLLM（StarCode）

（2）CodeLLM 根据表示图像的 Visual Tokens 生成完整的SVG代码。采用了 StarCoder 架构[40]，其具有预训练权重，为代码补全任务提供了通用模型。

StarCoder 是一个 decoder-only （仅解码器）的架构，使用多查询注意力[68]进行高效抽样。

为了解决长序列长度和高内存需求的问题，作者使用了flash-attention [18]，使得可以对 StarCoder 进行微调，上下文长度为8,192个 tokens，这是该模型的唯一限制。这种方法可以减轻通常与长序列中的神经注意力相关的二次复杂度。

在计算机科学和算法分析中，“quadratic complexity”（二次复杂度）指的是算法的执行时间或空间需求随着输入规模的增加而呈二次增长的情况。换句话说，当输入的大小增加一倍时，算法的执行时间或空间需求会增加到原来的四倍。二次复杂度通常表示为 $O(n^2)$ ，其中n是输入规模。这种类型的复杂度常见于一些简单的嵌套循环算法或者涉及对所有输入数据进行逐一比较的情况。

微调过程更新所有模型权重，以克服从原始预训练任务（通用代码生成）到本文的特定任务（图像到SVG转换）的分布偏移。
作者强调，预训练的StarCoder没有经过训练用于生成SVG代码，因此需要进行端到端的微调（全参数微调）。

在这里插入图片描述

训练过程（StarCode 的微调过程）：

在训练期间，作者首先使用图像编码器 $E$ 对图像 $x$ 进行编码为 $E (x)$ ，得到一个尺寸为 $L_{v}$ × $D_{v}$ 的隐藏二维特征 $z_{v}$ ，其中 $L_{v}$ 是序列长度， $D_{v}$ 是嵌入尺寸。
适配器 A 将 $z_{v}$ 投影到 CodeLLM 的维度空间，得到尺寸为 $L_{v}$ × $D_{l}$ 的视觉令牌(Visual Tokens) $h_{v}$ ，其中 $D_{l}$ 是CodeLLM的内部维度。
Ground Truth 的SVG代码也被分词并嵌入到CodeLLM空间中，作为 $h_{l}$ ，与视觉令牌 $h_{v}$ 具有相同的维度。
在训练期间，作者将视觉和SVG tokens 嵌入进行连接，并使用标准的语言建模训练目标进行建模，即使用SVG代码作为监督进行下一个令牌预测。
在推断过程中，只输入根据图像得到的视觉令牌 $h_{v}$ 作为上下文，将其 CodeLLM 自回归地进行解码输出 SVG 代码 (SVG Sampling)。

多恩Stone

关注

14
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
【SVG 生成系列论文（二）】用 LLM 来生成 SVG 代码，StarVector: Generating Scalable Vector Graphics Code from Images

StarVector 的模型可以分为两大块：（1）Image Encoder and Visual Tokens 和（2）CodeLLM（StarCode）
复制链接

扫一扫