Paper:https://arxiv.org/abs/2311.04257
Code & Demo & Models: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
摘要:
多模态大型语言模型(MLLM)在各种开放式任务中表现出令人印象深刻的教学能力。本文引入多模态大型语言模型mPLUG-Owl 2,它有效地利用模态协作来提高文本和多模态任务的性能。采用模块化网络设计,语言解码器作为管理不同模态的通用接口。具体来说,mPLUG-Owl 2集成了共享的功能模块,以促进模态协作,并引入了一个保留模态特定功能的模态自适应模块。大量的实验表明,mPLUG-Owl 2是能够推广文本任务和多模态任务,并实现国家的最先进的性能与一个单一的通用模型。值得注意的是,mPLUG-Owl 2是第一个在纯文本和多模态场景中展示模态协作现象的MLLM模型,为未来多模态基础模型的开发开辟了一条先驱之路。
动机:
以前的多模态学习研究表明,不同的模态可以有效地合作,从而同时提高文本和多模态任务的表现。然而,MLLM是一个统一的模型,它支持不同的模式和任务,而无需针对特定任务进行微调。最近的工作利用跨模态对准模块将视觉特征从视觉编码器映射到冻结的LLM中,以通过利用保留的语言功能执行多模态任务。不幸的是,这种策略限制了模态协作的潜力。因此,一些研究人员选择在多模态指令调整期间微调LLM。虽然微调显著提高了多模态任务,但它有可能削弱文本任务的性能。MLLM中模态协作的挑战在于应用单个模块来平衡模态协作和模态干扰的增益