PaLI-3: 更小更快更强的视觉语言模型-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139765191

23年10月来自谷歌的论文“PaLI-3 Vision Language Models: Smaller, Faster, Stronger“。

PaLI（Pathways Language and Image model）-1算谷歌的一个加速的视觉语言模型，其核心是一个文本编码器-解码器 Transformer（Vaswani 2017）。如图所示：为了将视觉作为输入，文本编码器会收到一系列视觉“tokens”：即图像作为输入的视觉Transformer输出特征。在通过交叉注意将视觉tokens传递给编码器-解码器模型之前，不会应用任何池化操作。

添加图片注释，不超过 140 字（可选）
PaLI-X是一种多语言视觉和语言模型，其模型遵循编码器-解码器架构：图像由 ViT 编码器处理，所得视觉嵌入以及来自附加文本输入（例如问题/前缀/提示）嵌入馈送到编码器-解码器主干。如图所示：每一帧都由ViT独立处理；补丁（patch）嵌入被展平并连接在一起形成视觉表征。

添加图片注释，不超过 140 字（可选）
PaLI 表明，将视觉编码器从 ViT-G (2B) 扩展到 ViT-e (4B)，VL 任务的改进比在ImageNet 表现得更明显。 PaLI-X 进一步扩展了视觉和语言组件，这些较大的图像编码器在插入大型 VLM 时继续带来好处。

PaLI-3是一种更小、更快、更强的视觉语言模型 (VLM)，与大 10 倍的类似模型相比具有优势。虽然在标准图像分类基准上表现稍差，但 PaLI 在各种多模态基准上表现出优异的性能，特别是在定位和视觉文本理解方面。将其图像编码器的参数扩展至 20 亿个，在多语言跨模态检索方面实现了最好水平。

基于只有 5B 参数的预训练主干网，作者改进训练方案，在各种 VLM 基准上实现了最先进 (SOTA) 结果。其方案包含三个主要组成部分：在网络规模图像文本数据上做图像编码器的对比预训练（Zhai 2023）、用于 PaLI多模态训练的改进数据集、以及更高分辨率的训练。

如图是PaLI-3的概览：通过对比预训练（contrastive pretrained ）的2B 视觉模型，图像单独编码为视觉tokens；这些视觉tokens与查询一起被传递到 3B 编码器-解码器 UL2 Transformer，后者会生成所需的答案。在这样的设置中，类似之前的PaLI 模型，一个对比预训练模型比一个分类预训练模型提供了更有用的tokens。

添加图片注释，不超过 140 字（可选）

其训练程序类似以前的PaLI：

第 0 阶段：单峰预训练。图像编码器对来自网络的图像-文本对进行对比预训练（Zhai 2023）。类似（Schuhmann2021）采取一个基于模型过滤方法保留大约 40% 对。图像编码器以 224×224 分辨率进行训练。按照（Tay 2023）描述的混合去噪程序，进行训练的文本编码器-解码器是一个3B UL2 模型。

第1阶段：多模态训练。在这里，图像编码器与文本编码器-解码器相结合。然后，这样组合的 PaLI 模型在多模态任务和数据混合上进行训练，尽管保持图像编码器冻结并用其原 (224× 224) 分辨率。再次通过文本质量的启发式过滤，其主要混合成分从 WebLI 数据集导出（Chen 2023b）。从（Chen 2023b）继承的其他成分有 CC3M-35L 和 WebLI OCR 上的多语言字幕、采用 VQ2A-CC3M-35L 的跨语言 VQA 和 VQG、目标-觉察的 VQA 以及目标检测。值得注意的是，不包括来自视频的任务或数据（这是在 PaLI-X 中完成的），PaLI-3 凭借其强大的图像编码器在这些基准测试中保留了具有竞争力的性能。然而，通过 PDF 文档丰富 WebLI，进一步提高了文档和文本理解能力，其中 PDF 文档包含 100 多种语言的密集文本和网络图像（描述为海报或文档）。

第 2 阶段：分辨率提高。高分辨率输入是一种被广泛接受的提高性能的方法，这既是因为可以感知图像的更多细节，也是因为通过增加序列长度来提高模型能力。通过提高分辨率的一个简短课程，可微调整个模型（解冻图像编码器）并提高 PaLI-3 的分辨率，将检查点保持在 812×812 和 1064×1064 分辨率。数据混合侧重于涉及视觉文本和目标检测的部分。

任务专业化（迁移）。对于每个单独的任务（基准），用冻结的 ViT 图像编码器在任务的训练数据上微调 PaLI-3 模型。对于大多数任务，微调 812×812 分辨率检查点，但对于两个文档理解任务，分辨率提高到 1064×1064。