剑桥：LLM是否具备图形程序理解能力？

大模型任我行

于 2024-09-02 08:00:00 发布

阅读量157

点赞数 7

分类专栏：大模型-模型评估文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141783124

版权

大模型-模型评估专栏收录该内容

17 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Can Large Language Models Understand Symbolic Graphics Programs?
🌐来源：arXiv, 2408.08313

摘要

评估大型语言模型（LLMs）的能力通常具有挑战性，部分原因是很难找到它们在训练过程中没有接触过的任务。我们采取了一步来应对这个挑战，转向一个新任务：专注于符号图形程序，这是一种流行的图形内容表示形式，可以过程化地生成视觉数据。LLMs已经展现出在程序合成方面的激动人心的前景，但它们是否理解符号图形程序呢？与传统程序不同，符号图形程序可以转换为图形内容。在这里，我们通过LLMs回答与图形内容相关的问题来表征LLMs对符号程序的理解能力。这项任务具有挑战性，因为仅从符号程序中回答这些问题很难，但是，通过人类实验我们可以验证，从相应的图形内容中回答这些问题将会很容易。为了理解符号程序，LLMs可能需要具备想象对应图形内容的能力，而不是直接访问渲染的视觉内容。我们利用这个任务来评估LLMs，通过创建一个用于符号图形程序语义理解的大型基准测试。这个基准测试是通过程序-图形对应来构建的，因此需要很少的人力。我们在基准测试上评估当前的LLMs，以阐明它们推理视觉场景的能力的初步评估。我们发现，这个任务可以区分现有的LLMs，而被认为在推理方面表现良好的模型表现更好。最后，我们介绍了符号指令调整（SIT）来改善这种能力。具体而言，我们使用符号程序生成的问题和图像查询GPT4-o。然后使用这些数据来微调LLM。我们还发现，SIT数据可以提高LLMs的一般指令跟随能力。

🛎️文章简介

🔸研究问题：大语言模型（LLM）能否理解符号图形程序？
🔸主要贡献：论文提出了一个评估LLM理解符号图形程序能力的基准（SGP-Bench），并引入了符号指令微调（SIT）方法来提高LLM的这种能力。

📝重点思路

🔺相关工作

🔸符号图形程序：使用符号程序进行过程建模来生成视觉数据，如构造实体几何（CSG）、计算机辅助设计（CAD）等。
🔸图形程序的理解和生成：与原始像素和体素相比，图形程序通常提供紧凑、可扩展且可能更多语义的描述。
🔸LLM：应用于编程任务也是一个流行的研究方向，如代码检索、自动化测试、修复、文档和生成等主题。
🔸相关数据基准：最相关的方面是（非图形）程序理解能力，由于图形程序可以通过渲染变成图像，因此研究视觉语言模型如何能够进行视觉理解也与我们的任务高度相关。

🔺论文方案

🔸定义了符号图形程序的“理解”概念：即通过程序生成的图像来评估LLM的语义理解能力。
🔸提出了一个通用的基准创建流程：使用强大的视觉语言模型（例如GPT-4o）根据渲染图像生成语义问题，然后人工检查以确保问题合理且答案正确。
🔸构建了SGP-Bench基准：包括两种评估类型：语义理解和语义一致性。
🔸设计了符号指令微调（SIT）方法：通过生成符号指令数据来增强LLM对符号图形程序的理解。

🔎分析总结

🔸LLM在SGP-Bench基准上能够对扰动表现出强大的语义理解，并具有语义一致性，表明它们能够理解符号图形程序。
🔸人类在回答基于图像的问题时具有很强的共识，而LLM表现出较低的共识，这意味着LLM可能有不同的内部工作机制来理解图像和符号程序。
🔸通过符号指令微调（SIT）方法，LLM的性能得到了显著提升，但开源模型距离GPT-4o仍有距离。