📖标题:VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning
🌐来源:arXiv, 2504.07956
🌟摘要
🔸思维链 (CoT) 推理的进步显着提高了大型语言模型 (LLM) 和大型视觉语言模型 (LVLM) 的能力。然而,视频 CoT 推理的严格评估框架仍然缺乏。当前的视频基准未能充分评估推理过程,并暴露故障是否源于感知或推理能力的缺陷。
🔸因此,我们介绍了 VCR-Bench,这是一个新颖的基准,旨在全面评估 LVLM 的视频思维链推理能力。VCR-Bench 包含 859 个跨越各种视频内容和持续时间的视频,以及 1,034 个高质量的问答对。每对都使用逐步 CoT 基本原理手动注释,其中每一步都被标记以表明它与感知或推理能力的关联。此外,我们设计了七个不同的任务维度,并提出了 CoT 分数来评估基于逐步标记的 CoT 理性的整个 CoT 过程。VCR-Bench 上的大量实验突出了当前 LVLM 的重大限制。即使表现最好的模型 o1 也仅达到了 62.8% 的 CoT 分数和 56.7% 的准确率,而大多数模型得分低于 40%。
🔸实验表明,大多数模型在感知上比推理步骤低,揭示了LVLM在复杂视频推理的时空信息处理中的关键瓶颈。CoT 分数和准确性之间的稳健正相关证实了我们的评估框架的有效性,并强调了 CoT 推理在解决复杂视频推理任务方面的关键作用。我们希望 VCR-Bench 作为一个标准化的评估框架,并暴露复杂视频推理任务的实际缺陷。项目在https://vlm-reasoning.github.io/VCR-Bench/
🛎️文章简介
🔸研究问题:当前视频理解领域缺乏有效的评估工具来衡量视频的链式思维(CoT)推理能力。
🔸主要贡献:论文提出了VCR-Bench,一个专门用于评估大型视觉语言模型(LVLM)在视频链式思维推理中的表现的基准框架。
📝重点思路
🔸定义了七个不同的任务维度,涵盖了时空感知、逻辑推理和基于知识的分析等多个方面。
🔸构建了包含859个视频和1034个高质量问答对的数据集,并为每个样本提供了标准答案和详细的推理步骤作为CoT注释。
🔸采用自动生成与人工验证相结合的注释流程,以确保多样性和准确性。
🔸通过CoT推理分解,将推理过程分为视觉感知步骤和逻辑推理步骤,并在多个维度上系统评估这些步骤的质量。
🔸对多种主流模型进行评估,分析其在CoT推理任务中的表现。
🔎分析总结
🔸实验结果显示,现有模型在视频推理任务中的CoT评分普遍较低,最优模型的CoT评分仅为62.8%,大多数模型的评分低于40%。
🔸视觉感知能力的平均得分明显低于逻辑推理能力,表明现有模型在复杂视频推理任务中的主要瓶颈在于时空信息的提取与理解。
🔸CoT评分与最终答案的准确性呈强正相关,说明高质量的CoT推理步骤是实现准确回答的关键。
🔸模型在处理多步骤推理时更常见的是遗漏关键信息,而非错误,表明当前模型的推理步骤生成存在显著的遗漏现象。
💡个人观点
论文专门针对视频链式思维推理构建了评估基准,填补了当前视频理解领域在评估工具方面的空白。
🧩附录