LlamaV-o1:重新思考LLM中的逐步视觉推理

25年1月来自 MBZUAI、U Central Florida、Linkoping 大学和澳大利亚 ANU 的论文“LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs”。

推理是解决复杂多步问题的基本能力,特别是在需要按顺序逐步理解的视觉环境中。现有方法缺乏评估视觉推理的综合框架,也不强调逐步解决问题。为此提出一个全面的框架,推进大语言模型 (LMM) 中的逐步视觉推理。首先,引入一个专门用于评估多步推理任务的视觉推理链基准。该基准提出一系列不同的挑战,包括八个不同的类别,从复杂的视觉感知到科学推理,总共有超过 4000 个推理步骤,从而能够对 LLM 在多步中执行准确且可解释视觉推理的能力进行稳健评估。其次,提出一种新指标,该指标以单步粒度来评估视觉推理质量,强调正确性和逻辑连贯性。与传统的最终任务准确性指标相比,所提出的指标提供对推理性能更深入的见解。第三,提出一种新多模态视觉推理模型,名为 LlamaV-o1,采用多步课程学习方法进行训练,其中任务逐步组织以促进逐步掌握技能和解决问题。提出的 LlamaV-o1 专为多步推理而设计,并通过结构化的训练范式逐步学习。大量实验表明,LlamaV-o1 优于现有的开源模型,并且比闭源专有模型表现更好。与最近的 Llava-CoT 相比,LlamaV-o1 在六个基准测试中获得 67.3 的平均分数,绝对增益为 3.8%,同时在推理扩展过程中速度提高 5 倍。

大语言模型 (LLM) 旨在理解和生成文本,使其能够处理各种任务,例如翻译 [6, 74, 12, 8, 55, 42]、摘要 [20, 75, 60] 和问答 [55, 33, 56]。通过大型多模态模型 (LMM) 集成视觉数据,通过结合文本、图像或视频进一步扩展功能,从而可以执行更复杂的多模态任务,例如图像字幕、视觉问答和视频分析。为了有效地解决这些任务,视觉推理对于 LMM 处理和连接各种信息、确保逻辑连贯性和连续解决问题至关重要。跨多种模态推理的能力对于解决复杂的现实问题至关重要。

为了提高 LLM 的解决问题能力,需要逐步推理以将复杂任务分解为更简单的部分。这种方法类似于人类的认知过程,使模型能够跟踪他们的思维过程并确保整个推​​理过程中的逻辑一致性。通过遵循结构化的推理路径,模型可以得出更准确、更易解释的结论。为此,先前的研究表明,提示或微调 LLM 生成分步原理,可以提高推理任务的执行效果 [32, 61, 59]。这些方法鼓励模型明确地推理每个步骤,专注于提高其处理复杂任务的能力。然而,大多数现有研究都难以处理逐步多模态推理任务,如图所示。此外,当前视觉推理基准测试的一个显著缺陷,是它们没有强调逐步推理。大多数基准测试主要关注最终任务的准确性,而忽略中间推理步骤的质量。此外,缺乏标准化评估可能会导致模型之间的比较不准确,从而难以评估它们真正的视觉推理能力。

请添加图片描述

使用 LLM 进行推理:大语言模型 (LLM) 中强大的推理能力开发一直是研究的重点。早期的工作通常依赖于神经符号方法,使用形式语言而不是自然语言对推理过程进行显式建模 [53, 11, 3]。然而,强大 LLM 的出现促使人们开发出利用其固有推理能力的新方法 [63]。例如,最近的模型中,在给出最终答案之前,推理-时间计算进行规模化推理 [65, 62, 24, 49]。诸如思维链 (CoT) 提示之类的技术(将复杂问题分解为中间推理步骤)在引导 LLM 获得结构化解决方案方面显示出良好的前景 [61, 69]。然而,保持逻辑一致性(尤其是在需要多步推理的任务中)是一项重大挑战,会导致错误和幻觉输出 [67, 43]。即使在 CoT 的指导下,LLM 也可能产生不真实的解释,偏离逻辑推理路径,并难以验证和选择正确的推理步骤 [61]。这些方法进一步扩展到 VLM。

使用 VLM 进行推理:视觉推理任务需要模型具有视觉感知和高级认知能力 [22, 31, 67]。视觉推理技能广泛应用于科学 [40]、数学 [37]、机器人规划 [23] 和高级问答 [72] 等领域。与 LLM 的情况类似,传统方法采用神经符号方法来明确地模拟推理过程 [17, 58, 5]。例如,[4] 提出可微分逻辑形式主义,将 VQA 的推理方面与视觉感知分离。较新的 VLM 利用 LLM 的推理能力来完成视觉任务。可视化编程 [22] 提供一个模块化的神经符号系统,该系统基于计算机视觉模型作为函数,并使用 GPT-3 LLM 进行组合视觉推理。Zhang [73] 认为,使用简洁答案进行 VLM 训练,会导致对需要推理的更复杂问题的泛化能力降低。他们使用 GPT-4o 模型来创建原理,并在训练中使用正确和不正确的推理链,通过强化学习 (RL) [51] 增强模型的推理能力。相比之下,LlaVA-o1/COT [67] 不使用 RL,主张分阶段推理而不是 CoT 提示,其中答案是通过总结、解释、推理和结论步骤按顺序得出的。

视觉推理基准:已经开发几个数据集和基准来评估和推进 VLM 中的视觉推理。这些数据集在复杂性、视觉背景和所需的推理技能方面各不相同。一些值得注意的例子如下。 CLEVR(组合语言和基本视觉推理)通过渲染的图像和自动生成的问题测试视觉推理能力,如计数、比较和逻辑推理 [25]。StrategyQA 是 Wikipedia 上的一个多轮问答数据集,需要隐式分解和多样化的推理策略 [18]。ScienceQA 提供一个大规模的多模态科学数据集,具有多模态上下文、多样化的科学主题以及带有相应讲座和解释的标注答案 [40]。一个名为 MathVista 的综合数学推理基准测试在多样化的视觉环境中融合 28 个现有的多模态数据集和 3 个新数据集 [37]。Zhang [73] 提出 ShareGPT-4o-Reasoning,这是一个全面的 CoT 数据集,包含 193k 个示例,涵盖各种 VQA 任务,旨在改进 VLM 中的 CoT 推理。然而,这些基准测试没有在复杂的评估场景中提供分步推理,通常仅根据最终答案来判断正确性。

为了便于全面评估复杂场景中的推理能力,本文引入分步式视觉推理基准。该基准是一种结构化工具,用于评估推理链的逻辑进展和 LMM 生成最终结果的准确性。

通过整合包含各种主题(例如科学、数学、医学知识、社会科学和数据解释)的各种数据集,确保评估基准能够捕捉推理的各个方面。

基准构建

基准域:为了确保对推理能力进行全面评估,分步视觉推理基准测试结合来自不同域的多个特定数据集样本。如图 显示基准测试中包含的问题和答案的示例。

请添加图片描述

数据分布如图所示。通过整合这些不同的来源,捕获广泛的推理场景,从而可以对模型响应复杂查询的能力进行广泛的评估。基于这些不同的数据样本,使用带有详细原理的半自动化注释管道生成分步推理步骤。接下来,概述基准测试中涵盖的主要域,然后解释注释过程。

请添加图片描述

数学和逻辑推理:此类别包括专注于数学和逻辑任务的数据集。MathVista [38] 提供各种数学问题,而 DynaMath [76] 提供动态数学挑战。此外,ChartQA [44] 包含与图表和图表理解相关的任务,允许在逻辑环境中评估视觉推理。

科学推理:对于科学推理,纳入 Science-QA [40] 中的样本,以测试模型基于科学知识和推理回答问题的能力。此外,MMMU-Medical [72] 专注于医学成像任务,评估模型解释复杂多模态医学数据的能力。

文化和社会理解:为了评估模型识别和解释不同文化场景的能力,纳入来自 ALM-Bench [57] 的样本,该模型旨在评估对社会和文化背景的理解。

其他视觉推理场景:还包括来自其他视觉推理数据集的样本。LogicVista [64] 和 Blink-IQ [15] 专注于复杂的视觉感知,提供的挑战要求模型分析和解释复杂的视觉信息。Doc-VQA [46] 针对 OCR 和文档理解,评估模型从基于文本的文档中提取信息的能力。最后,MMMU [72] 和 BLINK [15](Art Split)有助于视觉推理任务。

半自动分步推理生成:采用半自动方法生成分步推理响应。首先使用 GPT-4o 模型为数据集中的各种问题创建详细的推理步骤和答案。这涉及设计特定的提示来指导模型进行详细的逻辑推理。通过这种方式,有效地生成具有一致格式的各种推理链,其中分步推理包括达到所需答案所需的所有步骤和操作。

人工验证:由于自动响应并不总是可靠的,进行人工验证以确保所有推理步骤都是准确和正确的。在这个阶段,一组验证者审查生成的推理链和最终答案,并进行必要的调整以提高清晰度和正确性。基准包括 8 个不同类别的示例,如上图所示。要求验证者在必要时添加缺失的推理步骤,验证后会删除少于三个推理步骤的示例,但 MathVista 的一些示例除外,因为它们可以用 2 个步骤解决。在手动验证期间,超过 25% 的数据得到更正,从而产生了 1,000 多个样本,并仔细验证 4,173 个推理步骤。手动验证阶段对于建立可信的基本事实至关重要,这可作为评估 LMM 的表现基准。

评估框架

虽然之前已经提出多种评估推理链的方法 [19, 50],但这些方法表现出各种局限性。这些方法采用无参考方法,因为它们不依赖于一组基本事实。虽然这为评估提供灵活性,但可能会导致重大问题。例如,即使推理步骤是按逻辑顺序排列的,一个小错误也可能导致推理链的严重中断,但仍会导致高分。这会损害评估的准确性,因为它不能真正反映推理的质量。在本文研究中强调拥有评分基本事实的重要性。通过将生成的响应与可靠的参考进行比较,旨在提高评估的准确性。使用基本事实推理链可以更好地识别和解决不准确之处。

提出的方法有几个关键贡献,以推进 LMM 中的多模态推理。首先,利用课程学习逐步训练模型,从基础任务(如方法总结和基于问题的字幕生成)开始,然后再进行详细的多步推理。这种结构化方法有助于模型管理复杂性、提高逻辑连贯性并有效地推广到具有挑战性的场景。其次,使用简单而有效的集束搜索技术有效地扩展推理,该技术并行生成多个波束并选择最优的波束,确保效率和高质量输出。与传统方法在模型调用方面线性扩展相比,该方法显著降低计算成本,实现恒定规模化。

大型多模态模型的课程学习

LMM 是理解和生成不同数据类型(如文本、图像和视频)内容的强大工具。然而,在这种模型中进行推理,尤其是在复杂的多步骤场景中,面临着独特的挑战。模型通常难以处理逐步推理,因为推理不仅需要理解输入,还需要在多个步骤中保持一致性和逻辑清晰度。这就是课程学习成为必不可少的策略的地方。

课程学习受到人类教育系统的启发,涉及逐步训练模型,从简单的任务开始,逐渐引入更复杂的任务。这种方法在提高各种任务的模型性能方面表现出显著的优势,特别是当任务需要对多种模态进行推理时。例如,课程学习已成功应用于多模态学习,如视觉问答 (VQA) [30] 和字幕任务 [26]。这些研究表明,先用简单的示例训练模型,然后逐渐增加任务难度,可以更好地推广到更复杂的问题。

课程学习是一种通过采用渐进式训练策略来增强 LMM 推理能力的强大方法。从复杂的任务开始,逐渐引入更困难的复杂挑战,它有助于模型逐步建立基础技能。对于多模态模型,这种结构化的进展可以有效地管理复杂性,因为它们首先学会解释模态之间的基本关系,例如将文本与图像连接起来,然后再处理更复杂的场景。通过确保逻辑推理的坚实基础,课程学习提高多步任务的连贯性,使模型能够保持各步的一致性和一致性。此外,课程学习解决灾难性遗忘等挑战,当模型直接针对复杂任务进行微调时,可能会发生这种情况,从而导致过拟合和泛化能力差。通过最初专注于较简单的任务,模型会巩固基本模式,然后再发展到更高级的问题。这种方法反映人类的学习方式,即在解决复杂概念之前掌握基本技能,从而确保更好的泛化和适应性。总体而言,课程学习为开发推理能力建立一个强大的框架,使多模态模型在广泛的实际应用中更加可靠和有效。

多步思维链提高推理能力

多步思维链推理对于解决需要连续决策和逻辑连贯性的复杂任务至关重要。与经常忽略中间步骤的单步推理不同,多步推理允许模型将问题分解为更小、更易于管理的部分,从而确保整个过程的透明度和一致性。这种循序渐进的方法反映人类如何通过系统地推理每个步骤来解决复杂问题。例如,回答有关图像的多方面问题可能涉及识别目标、理解它们之间的关系以及综合这些信息以形成连贯的答案。采用多步推理不仅可以增强多模态模型的可解释性,还可以使它们更接近人类的问题解决,为更强大、更通用的人工智能系统奠定基础。

多步推理阶段

思维链 (CoT) 框架中的多步推理,使模型能够将复杂任务分解为渐进步骤,从而反映人类解决问题的方法。这种结构化过程可确保每个推理步骤明确且合乎逻辑,从而提高透明度和准确性。多步推理包括以下步骤(如下方框中的示例所示):

请添加图片描述

• 任务理解:模型首先理解问题和背景。
• 任务总结:下一步涉及生成视觉数据总结,以确保模型具有整体理解。此阶段使模型做好准备,专注于要采取的相关行动项目以获得最终答案。
• 详细字幕生成:为了进一步缩小范围,模型会生成详细字幕,以标识图表中的特定标签及其对应值。此步骤可确保模型准确解释视觉元素。
• 逻辑推理:然后,模型制定逻辑推理过程来定位和解释所需数据。此推理步骤将任务分解为子目标,确保采用系统性方法。
• 最终答案生成:最后,模型根据推理过程和提取的上下文输出最终答案。

将推理分解为这些阶段可确保模型有条不紊地处理复杂查询,减少错误并增强可解释性。多步骤训练增强有效处理每个阶段的能力,使 LMM 能够在需要逐步逻辑推理的任务上表现更好。这种方法不仅提高准确性,而且还为验证和改进模型的输出提供透明的途径。

数据准备和模型训练

为了有效地实施课程学习策略,将模型训练过程分为两个阶段,每个阶段都旨在逐步增强模型的推理能力,同时确保对多模态输入有扎实的理解。这种结构化方法允许模型在第一阶段获得基础推理技能,并在第二阶段逐步完善其提供详细、分步答案的能力。

第一阶段 总结和标题生成训练:在第一阶段,训练模型生成两个关键组件:(1)回答问题所需方法的总结和(2)描述输入数据相关方面的详细标题,例如图像中的视觉元素。此阶段的训练数据来自 PixMo 数据集 [13] 的 Cap-QA 拆分中的 18K 个样本和 G-LLaVa [16] 的 Geo170K 数据集中的 57K 个样本。每个样本都包含一个与输入数据(例如图像或图表)配对的问题。 PixMo 数据集的 Cap-QA 拆分包含基于输入问题的带标题的示例,而 Geo170K 数据集包含问答对及其推理步骤。此阶段确保模型学会将输入情境化,并在深入研究详细步骤之前概述高级推理计划。此阶段的重点是帮助模型收集推理任务的结构,提高其将问题分解为更简单元素的能力。通过专注于结构化训练,模型可以培养处理多步骤任务的能力,同时保持清晰、有条理的思路。

第二阶段 详细推理和最终答案生成的训练:在第二阶段,模型建立在第一阶段建立的基础之上。在这里,模型不仅经过训练可以生成摘要和字幕,还可以基于这些组件提供详细推理。最后,模型输出从推理过程中得出的正确答案。在此阶段,使用原始的 Llava-CoT 数据集 [66],其中包含来自多个来源的 99K 个结构化样本,包括各种领域,例如通用 VQA 和以科学为目标的 VQA。通用 VQA 数据源包括 ShareGPT4V [8]、ChartQA [44]、A-OKVQA [54]、DocVQA [45]、PISC [27]、CLEVR [25],而以科学为目标的 VQA 源分别包括 GeoQA+ [7]、AI2D [28]、ScienceQA [40] 和 CLEVR-Math [34]。每个样本都包含摘要、字幕、详细推理和最终答案。此阶段的训练过程涉及多步交互,其中模型逐步学习将方法分解为增量推理步骤。这种增量学习确保模型完善其逻辑流程,并系统地将摘要和字幕中的信息整合到可操作的推理步骤中。

在第二阶段,多步训练方法是模型成功的关键。在第一阶段,模型学会组织其思维并概述策略,有效地为第二阶段所需的详细推理奠定基础。当模型到达第二阶段时,它已经具备概述结构化方法的能力,使其更容易专注于将复杂任务分解为分步解决方案。这种方法提高模型的可解释性、准确性和稳健性,使其能够在复杂的多模态推理任务中表现出色。结果表明,通过在课程学习框架中利用 PixMo 和 Llava-CoT 等数据集,该模型可以有效地从高级问题理解过渡到详细的分步推理,在多步推理基准测试中实现最先进的性能。

模型训练:利用 PixMo 和 LLaVA-CoT-100k 数据集,使用课程学习策略结合监督微调 (SFT) 方法训练模型。对于这项工作,选择 Llama-3.2-11B-Vision-Instruct [47] 作为基础模型,因为它在多模态推理和指令遵循能力方面具有坚实的基础。微调过程涉及全参数优化,使模型能够有效适应 PixMo 和 LLaVA-CoT-100k 数据集提供的结构化推理任务。训练在配备 8 个 NVIDIA A100 (80GB) GPU 的高性能计算节点上进行,确保高效处理大规模数据集和模型的计算要求。在课程学习的初始阶段,模型在 PixMo 数据集上进行微调,以开发基础推理技能,例如生成摘要和字幕。

优化推理效率:集束搜索

推理效率是部署大型多模态模型用于实际应用的关键因素,尤其是在处理复杂的推理任务时。为了解决这个问题,采用集束搜索策略,与 LLava-CoT [67] 等现有方法相比,该策略显著提高推理效率和推理质量。该方法旨在平衡计算复杂性和输出质量,从而实现更快、更可靠的推理。

简化的输出设计:与 LLava-CoT [67] 不同,该方法不需要高度结构化的输出格式。这种灵活性简化推理过程,使模型能够专注于生成高质量输出,而无需严格的结构约束开销。这种设计选择使该方法更适应广泛的推理场景,从而提高跨任务的泛化能力。

通过集束搜索提高效率:集束搜索技术能够并行生成多个推理路径并选择最优路径。这种方法提高模型输出的质量和一致性。通过评估多个候选答案并选择最佳答案,确保最终答案合乎逻辑且可靠。该方法的主要优势之一是其计算效率。其方法推理时间规模化复杂度为 O(n),比 LLava-CoT 的 O(n^2) 规模化效率高得多。这种线性复杂度确保方法可规模化到更大的数据集和更复杂的推理任务,而不会按比例增加计算成本。

在实验中,使用 Llama-3.2-11B-Vision-Instruct 作为基线模型,使用 llama-recipes 框架以监督微调 (SFT) 方式进行微调。这个强大的基础能够有效地实施课程学习策略,在复杂性逐渐增加的推理任务上训练模型。训练数据集包括 PixMo 和 LLaVA-CoT-100k,专门为支持多步推理任务和详细的思维链解释而定制。

为了进行评估,使用一组不同的基准,包括提出的推理基准和六个已建立的多模态基准:MMStar [9]、MMBench [35]、MMVet [71]、MathVista [39]、AI2D [29] 和 Hallusion [21]。这些基准全面评估模型在一般视觉问答、数学和科学推理以及处理语言幻觉和视觉错觉方面的能力。提出的基准旨在评估逐步推理和最终答案,并使用模糊评估策略进行评估,其中 GPT-4o 充当评判者,确保对生成的输出进行稳健评估。为了保持一致性和公平性,采用 LLaVA-CoT 中使用的 VLMEvalKit [14] 框架,在六个已建立的多模态基准上评估所有模型。这个开源工具包确保可重复性,并允许直接比较不同模型之间的性能指标。严格的实验设置凸显方法在提高多模态推理能力方面的有效性。

如图所示:Llava-CoT 和提议的 LlamaV-o1 在 VRC-Bench 示例上的定性比较。第一行:示例在示例图表上展示视觉推理能力。在这里,Llava-CoT 在中间步骤和最终答案上都犯了错误(以红色突出显示)。相比之下,LlamaV-o1 提供步骤和最终答案的准确描述。第二行:虽然 Llava-CoT 和 LlamaV-o1 都在示例现实世界 VQA 上提供准确的步骤描述,但 Llava-CoT 无法推断出最终答案。最后一行:Llava-CoT 无法准确回答计数任务,同时也缺少中间计数步骤。相比之下,LlamaV-o1 模型在中间推理步骤中表现更好,同时还提供准确的最终答案。

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值