【论文研读】MPO新突破!上海AI实验室强化多模态大语言模型链式思考推理能力

最近迷上了多模态,正好读到一篇多模态相关的文章,于是就写博客总结和大家分享一下:https://arxiv.org/pdf/2411.10442v1

【导读】多模态大语言模型(MLLMs)虽然在许多任务上表现出色,但在链式思考(Chain-of-Thought, CoT)推理方面仍存在不足。为此,上海人工智能实验室的研究团队提出了一种基于混合偏好优化(MPO)的新方法,通过自动化偏好数据构建管道和创新的训练策略,显著提升了MLLMs的多模态推理能力。这一研究成果不仅为多模态大语言模型的发展带来了新的突破,也为未来的AI研究提供了新的思路。

多模态大语言模型(MLLMs)在预训练和监督微调(SFT)的训练范式下,已经在多个领域和任务中取得了显著成就。然而,这些模型在链式思考(CoT)推理方面的表现却不尽如人意,尤其是在处理多模态数据时。为了克服这一挑战,上海人工智能实验室的研究团队提出了一种基于混合偏好优化(MPO)的新方法,旨在通过自动化偏好数据构建管道和创新的训练策略,提升MLLMs的多模态推理能力。

多模态大语言模型的推理瓶颈

多模态大语言模型(MLLMs)在预训练和监督微调的训练范式下,已经在多个领域和任务中取得了显著成就。然而,这些模型在链式思考(CoT)推理方面的表现却不尽如人意。如图1所示,在MathVista这一多模态推理基准上,InternVL2-8B模型使用直接答案时得分为58.3࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值