Blink基准测试：挑战多模态大型语言模型的视觉感知能力

最新推荐文章于 2024-08-14 22:29:49 发布

人工智能培训咨询叶梓

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量736

点赞数 13

分类专栏：人工智能前沿文章标签：语言模型人工智能自然语言处理计算机视觉深度学习多模态生成文本

本文链接：https://blog.csdn.net/yetzi1975/article/details/140007664

版权

人工智能前沿专栏收录该内容

188 篇文章 0 订阅

订阅专栏

随着人工智能技术的飞速发展，多模态大模型（LLMs）在理解和生成文本方面取得了显著成就。然而，这些模型在核心视觉感知任务上的表现仍远落后于人类。本文介绍了Blink基准测试，这是一套针对多模态LLMs的视觉感知能力的新测试，旨在评估那些在其他评估中未被充分测试的能力。即使是最先进的模型，如GPT-4V和Gemini，在Blink上的表现也远低于人类水平，这表明当前的多模态LLMs在视觉感知方面还有很大的提升空间。

上图展示了Blink基准测试的概览，包含14个视觉感知任务的示例，这些任务对人类来说可以迅速解决，但对当前的多模态LLMs构成挑战。这些任务受经典计算机视觉问题的启发，并被重新构为多项选择题，供多模态LLMs回答。

Blink基准测试的设计初衷是评估多模态LLMs在核心视觉感知任务上的表现，这些任务通常对人类来说易如反掌，但对机器来说却颇具挑战。Blink的独特之处在于其多样化的视觉提示，它不仅仅局限于文本提示，还包括了圆形、方框和遮罩等多种视觉元素，这些视觉提示有助于模型集中注意力并深入理解图像的特定区域。

Blink的另一个显著特点是其超越了单纯的视觉识别能力，它涵盖了3D推理、几何理解、功能推理等一系列复杂的视觉感知能力。这些能力对于机器来说至关重要，因为它们涉及到对场景的深入理解和解释。

Blink中的问题被设计为不需要特定领域知识即可解答，这些问题对人类而言是“视觉常识”，可以在几秒内解决。这样的设计使得Blink能够直接评估机器与人类在视觉感知方面的基础差异。

Blink采用了交错的图像-文本格式，问题和选项可以是图像或文本形式，这种多样性要求模型真正理解问题并推动了模型解释能力的边界。

上图对比了Blink和其他现有基准测试的特点。展示了Blink在视觉提示、感知能力评估、常识问题以及图像-文本格式方面的新颖性：

多样化的视觉提示：Blink 包含多种视觉提示，如圆形、方框和图像遮罩，而以前的基准测试只有文本问题和答案。
全面评估视觉感知能力：Blink 评估了更广泛的视觉感知能力，如多视图推理、深度估计和反射率估计。相比之下，先前的基准测试通常更侧重于基于识别的视觉问答（VQA）。
视觉常识问题：Blink 包含了人类可以在几秒钟内回答的“视觉”常识问题，而以前的一些基准测试（如文献[87]）需要领域知识。

Blink的数据来源非常广泛，它包括了从室内家居场景到室外城市或自然环境的多样化图像。这些图像既有抽象的图表，也有合成图像和真实照片，确保了评估的全面性。

上图展示Blink 基准测试中包含的14个任务的统计数据。Blink基准测试中的14个任务是从经典的计算机视觉问题中提取并重新构想为多项选择题。这些任务覆盖了从像素级别的模式匹配到图像级别的高级视觉理解。例如，视觉对应任务评估模型理解和识别不同视角、光照条件或时间下相同场景点的能力；相对反射率任务则评估模型对材料属性及其与光相互作用的理解。

为了构建Blink，研究者们从多个现有视觉数据集中提取图像，并收集了新的数据。他们精心挑选了图像，确保所有测试样本都具有独特的图像。这些图像和问题来源于不同的数据集，或由人类手动编写，以确保问题的多样性和挑战性。

在数据质量控制方面，研究者们手动检查了所有收集的数据，并筛选出了不明确的数据，以保证Blink数据集的质量。这个过程确保了Blink基准测试能够提供准确和有意义的评估。通过Blink，研究者们可以更深入地了解现有模型的局限性，并探索提高机器视觉感知能力的新途径。

实验中所选用的多模态LLMs是当前技术前沿的代表，它们包括但不限于GPT-4V和Gemini Pro等模型。这些模型的规模不同，从几亿参数到几十亿参数不等，旨在探索模型规模与视觉感知能力之间的关系。评估协议遵循了标准化的流程，确保了实验结果的可比性和公正性。数据集方面，Blink基准测试采用了精心挑选和设计的图像和问题。这些问题被构造为多项选择题，以便模型能够从中选择最合适的答案。图像和问题的设计覆盖了广泛的视觉感知任务，确保了评估的全面性和挑战性。

实验的过程开始于将这些多模态LLMs暴露于Blink基准测试的数据集之中。模型需要处理图像、理解问题，并从给定的选项中选择最合适的答案。这一过程模拟了人类在面对视觉信息时的快速决策和理解能力。在实验中，模型的性能通过准确率来衡量，即模型选择正确答案的频率。为了确保评估的严谨性，实验重复了多次，并采用了不同的图像和问题组合。

实验结果显示，尽管人类在Blink基准测试上的平均准确率高达95.70%，但现有的多模态LLMs在这些任务上的表现却远未达到人类的水平。例如，即使是表现最好的GPT-4V模型，其准确率也仅为51.26%，仅比随机猜测的准确率高出13.17%。这一结果揭示了现有模型在视觉感知方面存在的显著差距。

上图展示了多模态大型语言模型（LLMs）在 Blink 测试集上的准确率。

上图展示了 Blink 基准测试的定性结果。在这个图表中，研究者比较了不同的多模态大型语言模型（LLMs）如 LLaVA v1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V 以及人类在各项任务中的表现。图中的红色选择表示正确答案或地面真实情况（ground truth）。为了可视化的目的，标记被特意放大，并且一些图像被嵌入以节省空间。对于智商测试（IQ test），第三张图像是通过叠加第一张和第二张图像来构建的。

实验结果还揭示了不同模型在不同任务上的表现差异。一些模型在特定任务上表现出了相对的优势，如在空间推理或艺术风格识别任务上。然而，在像素级别和图像区域级别的任务上，所有模型都面临了更大的挑战。

上表提供了不同模型在Blink测试集上的性能结果，包括随机选择、人类表现以及不同模型的准确率。

结果表明，尽管这些模型在某些视觉任务上取得了进展，但它们在理解和处理复杂视觉信息方面仍有很大的提升空间。这一发现为未来的研究提供了明确的方向，即需要进一步改进模型的感知能力，以便它们能够更好地模拟人类的快速和准确的视觉处理能力。

Blink基准测试为多模态LLMs提供了一个简单而有效的测试平台，以评估和提升其视觉感知能力。通过这一基准测试，我们期望能够激发社区的进一步研究，帮助多模态LLMs逐步达到人类级的视觉感知水平。

论文链接：https://arxiv.org/abs/2404.12390

项目地址：https://zeyofu.github.io/blink/

人工智能培训咨询叶梓

关注

13
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Blink基准测试：挑战多模态大型语言模型的视觉感知能力

多模态大模型（LLMs）在理解和生成文本方面取得了显著成就。然而，这些模型在核心视觉感知任务上的表现仍远落后于人类。本文介绍了Blink基准测试，这是一套针对多模态LLMs的视觉感知能力的新测试，旨在评估那些在其他评估中未被充分测试的能力。即使是最先进的模型，如GPT-4V和Gemini，在Blink上的表现也远低于人类水平，这表明当前的多模态LLMs在视觉感知方面还有很大的提升空间。
复制链接

扫一扫