Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Surve

Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning

摘要

具有抽象推理能力的强人工智能(Strong AI)或通用人工智能(AGI)是下一代人工智能的目标。大型语言模型 (LLM) 的最新进展以及新兴的多模态大型语言模型 (MLLM) 领域在各种多模态任务和应用程序中展示了令人印象深刻的功能。特别是,各种 MLLM 都具有不同的模型架构、训练数据和训练阶段,已在广泛的 MLLM 基准上进行了评估。这些研究在不同程度上揭示了 MLLM 当前能力的不同方面。然而,MLLM 的推理能力尚未得到系统研究。在本次调查中,我们全面回顾了现有的多模态推理评估协议,对 MLLM 的前沿进行了分类和说明,介绍了 MLLM 在推理密集型任务中应用的最新趋势,最后讨论了当前的实践和未来的方向。我们相信我们的调查为多模态推理这一重要主题奠定了坚实的基础并阐明了清楚了

导言

最近发展

MLLM 已在各种多模态推理任务中证明了有效性。著名的例子包括视觉问答(VQA),多模态对话等

大量研究重点关注特别是提高 MLLM 的推理能力,例如多模态指令调整 和提示多模态推理

MLLM 的强大功能也引起了人们对将它们体现为现实环境中的代理的研究兴趣 , 或让MLLM能够使用外部工具

不足

LM在一些推理领域不行,例如数学问题

MLLM和LM都有幻觉问题

MLLM的推理任务定义和分类

定义

Reasoning is one of the fundamental intelligent behaviors of human beings, which requires understanding and analyzing given conditions and background knowledge to derive a new conclusion logically and rationally
推理要遵守的:推理规则,领域知识

分类
分类方法一
  • 正式推理:其中只要前提为真,正式推理的结论就保证为真

  • 非正式推理则不能保证结论的真实性,尤其是当可用信息是不完整或不明确时。通常,非正式推理是用自然语言进行的,

分类方法二
  • 演绎推理代表了最经典的推理形式。给定一组已知的知识(前提),它逐步推断新的知识以获得结论。例如,给定“猫是哺乳动物”和“所有哺乳动物都有四只脚”的前提,演绎推理可以推断出“猫有四只脚”的新结论。请注意,演绎推理仅涉及推理步骤遵循逻辑规则,并不对前提的真实性施加任何限制。因此,即使推理步骤合乎逻辑,错误的前提也可能导致错误的结论。
  • 归纳推理专注于从具体观察中推断出一般规则。例如,给定前提(观察)“到目前为止我所见过的任何哺乳动物都有四只脚”,归纳推理可以推断出“所有哺乳动物都有四只脚”。归纳推理是科学领域发现新原理的有效工具请注意,由于很难收集完整的观察结果,因此对于一些看不见的观察结果,归纳推理的结论可能是不正确的。
  • 溯因推理是为给定的观察结果推断出最好的解释[42]。它被认为是演绎推理的倒退方向,其中多种原因可以导致结果(观察),并且应该推断出最可能的原因。考虑这种情况:一辆汽车停在高速公路上,危险警示灯闪烁。溯因推理可能会得出更合理的结论:汽车坏了,而不是有人恶作剧的不太可能的解释。由于可能的原因数量通常很大,因此溯因推理需要大量的常识和领域知识来推断出可信的原因。
  • 类比推理涉及根据相似性将知识从一个或多个实例转移到另一个实例,研究了两种形式的类比推理并将其应用于现实生活活动中。第一种形式将一个或多个相似案例作为输入,然后得出一个隐藏命题,最后将该命题应用于新的案例。例如,考虑“铁可以导电”和“铜可以导电”这两种情况,由此可以推断出“任何金属都可以导电”的命题,从而推断出“银作为一种金属,可以导电”。类比推理的第二种形式考虑两个实体的相似性,根据另一个实体的属性来推断另一个实体的属性,例如,假设“将植物暴露在充足的阳光下可以增强它们的生长和健康”。以及“人类和植物都需要某些环境因素才能茁壮成长,例如水、空气和营养物质”,人们可以使用类比推理来假设“人类也可能受益于定期暴露在阳光下的健康和福祉”。通过类比推理,可以以较低的成本快速推断出新对象的属性。但是,类比推理的前提只能支持可能的结论,而不是绝对正确的结论。
分类方法三
  • 仅语言推理任务,不需要图像。
  • 多模态推理任务,涉及图像又涉及文本。
分类方法四
  • 数学推理 通常需要一步或多步算术推理。基于对输入问题、隐式算术运算和概念知识的理解,求解器应该推断出一系列可以得出最终答案的操作步骤。
  • 常识推理 常识是一个涵盖面广泛但定义有些松散的概念。虽然缺乏确切的界限,但它通常指的是超出专业知识的知识,并且预计为完成基础教育的个人所熟知。常识知识延伸到各个领域,包括社会常识(例如,了解如果公开指责人们会感到尴尬)、物理常识(例如,认识到汽车比自行车更快)、生物常识(例如,知道企鹅和考拉不会自然地相遇),以及许多其他领域。
  • 符号推理 可以被描述为在逻辑推导等精确定义的规则的指导下对抽象对象进行的认知过程。例如逻辑推理,给出一堆符号,和规则来证明公式
  • 环境推理 与环境交互需要推理技能,涉及使用常识知识来了解当前情况并计划未来的行动。此外,这些环境需要能够处理反馈并根据该反馈调整后续操作。就是把MLLM放在一个虚拟或者真实的环境中对面不同事件的推理

MLLM的benchmark

理解图像内容和文字标题
  • COCO caption
  • Nocaps
  • Flickr30K
VQA
  • VQAv2
  • OK-VQA
  • ScienceQA
  • GQA
  • feature question-answer pairings

还有很多在原文表格一中

MLLM的评估指标

分类一

  • 视觉能力 传统的感知指标是相关的,包括识别、分类和定位图像中的对象等任务,以及在整个场景的背景下解释这些对象。使用的常见指标包括图像分类精度(ImageNet )、对象检测 mAP(COCO)、对象分割 mIoU(LVIS)等。
  • 语言能力 常识性理解和连贯性需要被视为衡量标准。它不仅仅是生成语法正确的句子;它是关于产生上下文相关、逻辑和语义连贯的响应,确保与给定的视觉输入保持一致。使用的常见指标包括 BLEU 、CIDEr 、ROUGE 等。
  • 推理能力包括空间推理、知识推理(包括常识、数学、文本、代码等)以及基于假设的推理。正如人类根据文本和视觉线索推断信息一样,MLLM 应该表现出根据其处理的多模态数据进行推理、得出推论和预测结果的能力。常见的指标有 QA-Accuracy 、Elo 分数 、GPT-4 评估等。

分类二

  • 封闭集评估基准 受到一组预先确定的类别或结果的限制。
  • 开放集评估基准更加无限制和探索性。它们允许模型生成响应,而不将它们限制在预定义的集合中。评估开放集答案的两种常见方法是人工评分,例如 LVLM-eHub 和 Lynx ,以及自动语言模型评分,例如 TouchStone 和 VisIT-Bench。

提高LLM的推理能力方法

  • 监督数据(有标签数据)预训练
  • 微调,instruction-tuning
  • in-context learning
  • prompt engineering
  • interacting LLMs with external tools

MLLM定义和架构

在这里插入图片描述
在这里插入图片描述

MLLM发展历史

在这里插入图片描述

提高MLLM推理能力的方法

指令微调

指令调优通常从仔细收集的数据集开始,该数据集包含数千个“指令,响应”对。在此过程中,LLM使用该数据集进行微调,以更好地将人类意图与模型行为保持一致。
在多模态指令调整的背景下,数据集中的每个示例都由⟨X-模态、指令、响应⟩组成,其中X-模态通常表示图像、视频或音频。
指令微调的损失函数如下指令微调的损失函数
缺点是:在指令调整阶段,大多数 MLLM 主要关注图像-文本对,这会逐渐导致 ICL 功能减弱。这归因于构建以 ICL 为中心的指令调整数据集的挑战。ICL功能指的是上下文情景学习能力,就是zero-shot和few-shot的prompt。

通过表征学习进行多模态提示

研究旨在为各种模态开发统一的提示嵌入空间。

自动生成提示prompt

使用上下文示例进行提示是一种范式,可以解锁预训练的 LLM 对下游任务的类比推理能力 。尽管这种方法广泛应用于单模态环境中,但关于多模态示例提示的研究相对较少。多模式情境学习的一个重大挑战是,MLLM通常需要情境信息来处理新任务,但为每个新任务获取情境示例并不总是可行的。针对这个问题,Guo 等人提出了 Img2LLM,一个能够自动生成与 LLM 无关的示例提示的系统,用于基于问题图像的视觉问答。这是通过首先从生成的标题中提取候选答案,然后制定与这些答案相对应的问题,从而创建一组适合新任务的问答对来实现的。

模型交互进行提示

不是很明白

MLLM应用场景

嵌入式AI在这里插入图片描述

困难

嵌入式人工智能的研究任务大致分为三类:visual exploration,、visual navigation和embodied question answering。这些任务要求实体代理agent感知其环境,规划和执行控制策略,并与人类或环境交互。该领域的主要挑战是使代理适应外界环境,这需要代理具有强大的常识知识和推理能力。

应对困难的方法

  • 将嵌入式AI的推理分为多个组件
  • 用外部世界模型进行推理
  • 带有反馈的推理(环境的反馈)
  • 策略生成推理。 [176]中提出的研究进一步研究了语言模型编程在机器人控制中的应用。除了直接使用预训练的LLM的语言能力之外,本研究还涉及提示具有编码能力的LLM生成策略代码。
  • 收集更好的数据

已有的Foundation model

  • PaLM-E [19]: the Largest Reported Embodied Multimodal Large Language Model.
  • RT2: Vision-Language-Action (VLA) Model.

MLLM外部工具的使用

最近的研究探索了使用外部工具来增强LLM完成复杂任务的能力的潜力。用计算器、搜索引擎、翻译系统、日历,甚至对其他模型的 API 调用等工具来补充LLM,可以帮助解决超出其固有能力的任务。

  • tool selection or creation
  • processing the results obtained from these tools

MLLM的应用

  • 组合视觉推理。虽然当前的 MLLM 模型表现出对图像分类和字幕等视觉任务的熟练程度,但由于推理和规划的固有要求,它们在处理更复杂的视觉操作(如视觉编辑)时遇到了困难。例如,在图像中用猫脸替换人脸涉及人脸检测、人识别、猫脸生成以及将新脸合并到原始图像中。需要批判性推理来分解任务并制定详细的执行计划。 MLLM 在执行这些分解步骤中可以发挥关键作用。
  • 多模态对话推理。由于其上下文相关的性质,遵循对话框指令可能比单步指令更复杂。多轮对话理解需要基于对话历史进行推理。 MLLM 可以作为 LLM 的工具,促进包含视觉输入和输出的对话,利用 LLM 的推理能力来解释对话指令。
  • 整合视觉领域之外的模式。 MLLM 通常是针对特定模式(例如图像)进行定制的,这在尝试跨数学、网络、表格等不同领域集成其使用时提出了挑战。例如,解决图像中描绘的数学问题需要视觉模型首先解释图像,然后调用数学模型来解决。应对这一挑战需要促进各种模态模型之间的推理和规划。通过将所有模态模型概念化为工具并利用法学硕士的推理能力,最近的努力旨在集成视觉领域之外的其他模态,例如网页内容、表格、办公文档和机器人数据。这种方法有助于开发更强大的多模式模型。

未来发展方向

  • Efficiency and Scalability of MLLM Training Recipes
  • Long-context Support
  • Instruction Fine-tuning (IFT) Data.
  • Reinforcement Learning for Multimodal Reasoning.
  • Evaluation Benchmarks
  • 12
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值