最近迷上了多模态,正好读到一篇多模态相关的文章,于是就写博客总结和大家分享一下:https://arxiv.org/pdf/2411.10442v1
【导读】多模态大语言模型(MLLMs)虽然在许多任务上表现出色,但在链式思考(Chain-of-Thought, CoT)推理方面仍存在不足。为此,上海人工智能实验室的研究团队提出了一种基于混合偏好优化(MPO)的新方法,通过自动化偏好数据构建管道和创新的训练策略,显著提升了MLLMs的多模态推理能力。这一研究成果不仅为多模态大语言模型的发展带来了新的突破,也为未来的AI研究提供了新的思路。
多模态大语言模型(MLLMs)在预训练和监督微调(SFT)的训练范式下,已经在多个领域和任务中取得了显著成就。然而,这些模型在链式思考(CoT)推理方面的表现却不尽如人意,尤其是在处理多模态数据时。为了克服这一挑战,上海人工智能实验室的研究团队提出了一种基于混合偏好优化(MPO)的新方法,旨在通过自动化偏好数据构建管道和创新的训练策略,提升MLLMs的多模态推理能力。
多模态大语言模型的推理瓶颈
多模态大语言模型(MLLMs)在预训练和监督微调的训练范式下,已经在多个领域和任务中取得了显著成就。然而,这些模型在链式思考(CoT)推理方面的表现却不尽如人意。如图1所示,在MathVista这一多模态推理基准上,InternVL2-8B模型使用直接答案时得分为58.3