北大：三阶段学习优化多模态推理问答

最新推荐文章于 2025-05-05 13:07:46 发布

大模型任我行

最新推荐文章于 2025-05-05 13:07:46 发布

阅读量735

点赞数 28

分类专栏：大模型-模型训练大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/145407563

版权

大模型-模型训练同时被 2 个专栏收录

261 篇文章

订阅专栏

大模型-推理优化

120 篇文章

订阅专栏

在这里插入图片描述

📖标题：ReasVQA: Advancing VideoQA with Imperfect Reasoning Process
🌐来源：arXiv, 2501.13536

🌟摘要

🔸视频问答（VideoQA）是一项具有挑战性的任务，需要理解视频中复杂的视觉和时间关系，才能准确回答问题。
🔸在这项工作中，我们引入了ReasVQA（推理增强视频问答），这是一种利用多模态大语言模型（MLLM）生成的推理过程来提高VideoQA模型性能的新方法。我们的方法包括三个阶段：推理生成、推理细化和从推理中学习。首先，我们使用额外的MLLM生成详细的推理过程，然后通过过滤步骤对其进行优化，以确保数据质量。最后，我们使用可能不完美的推理数据，通过多任务学习来指导VideoQA模型如何基于给定的视频解释和回答问题。
🔸我们在三个流行的基准测试中评估了ReasVQA，我们的结果确立了新的最先进的性能，NExT QA的性能显著提高了2.9，STAR的性能显著改善了7.3，IntentQA的性能明显提高了5.9。我们的研究结果证明了将推理过程集成到VideoQA中的监督优势。进一步的研究验证了我们方法的每个组成部分，包括不同的主干和MLLM，并再次强调了这种简单但有效的方法的优点。我们利用先进的推理技术为提高VideoQA性能提供了新的视角，为该研究领域树立了新的标杆。

🛎️文章简介

🔸研究问题：视频问答（VideoQA）任务中存在复杂推理和时序关系理解难题，能否通过引入生成的不完美推理过程来提升模型的性能？
🔸主要贡献：论文提出了ReasVQA方法，通过多任务学习和推理精炼，显著提升了视频问答模型的性能，并在多个数据集上达到了新的SOTA水平。

📝重点思路

🔸主要思想：ReasVQA方法包括三个阶段，分别是推理生成（Reasoning Generation）、推理精炼（Reasoning Refinement）和从推理中学习（Learning from Reasoning）。
🔸推理生成：利用现有的多模态大语言模型（MLLM）生成视频和问题的推理过程。
🔸推理精炼：通过过滤和精炼生成的推理过程，去除包含结论的句子，保留有价值的推理步骤，即使最终答案错误。
🔸从推理中学习：采用多任务学习（MTL）框架，同时训练模型进行视频问答和推理生成，通过加权损失函数平衡两个任务的学习。

🔎分析总结

🔸数据集上的表现：ReasVQA在NExT-QA、STAR和IntentQA数据集上均达到了新的最先进水平，分别提升了2.9、7.3和5.9个百分点的准确率。
🔸推理精炼的有效性：精炼后的推理数据显著提升了模型性能，尤其是在使用更多推理数据时效果更明显。
🔸多任务学习的优势：多任务学习方法在视频问答任务中表现优于单任务学习，特别是在复杂推理任务上。
🔸推理生成的质量：即使生成的推理过程不完美，精炼后的推理步骤仍然对模型的学习有显著帮助。