📖标题:Baichuan-Omni-1.5 Technical Report
🌐来源:arXiv, 2501.15368
🌟摘要
🔸我们介绍了百川Omni-1.5,这是一个全模态模型,不仅具有全模态理解能力,还提供端到端的音频生成能力。为了在不损害任何模态能力的情况下实现跨模态的流畅和高质量的交互,我们优先考虑优化三个关键方面。
🔸首先,我们为多模态数据建立了一个全面的数据清洗和合成管道,获得了大约500B的高质量数据(文本、音频和视觉)。其次,音频标记器(百川音频标记器)旨在从音频中捕获语义和声学信息,实现与MLLM的无缝集成和增强兼容性。最后,我们设计了一个多阶段训练策略,逐步整合多模态对齐和多任务微调,确保所有模态之间的有效协同。
🔸百川Omni-1.5在全模态综合能力方面领先于当代模型(包括GPT4o-mini和MiniCPM-o 2.6)。值得注意的是,它在各种多模态医疗基准测试中取得了与Qwen2-VL-72B等领先模型相当的结果。详见https://github.com/baichuan-inc/Baichuan-Omni-1.5
🛎️文章简介
🔸研究问题:如何实现高效的多模态大语言模型(MLLM),使其能够无缝处理文本、图像、音频和视频输入,从而增强跨模态的理解与生成能力。
🔸主要贡献:论文提出了Baichuan-Omni-1.5模型,该模型在多模态交互能力、尤其是医学图像理解方面,取得了显著的性能提升,超越了现有的主要模型,如GPT-4o-mini。
📝重点思路
🔸预训练数据:构建了具有文本、图像文本、视频文本、音频文本及其交互的综合且高质量的跨模态数据集。
🔸模型架构:设计了一个统一的多模态模型架构,结合视觉、音频和文本输入,支持端到端的文本和音频输出。
🔸预训练策略:实施了多阶段的多模态预训练策略,包括图像-文本、图像-音频-文本,以增强模型在复杂指令下的表现。
🔸监督微调策略:收集包含开源、合成和内部注释数据,跨越了多个任务,并在各种模态中大约有1700万个数据对,进行监督微调以增强指令遵循能力。
🔎分析总结
🔸Baichuan-Omni-1.5在十个图像理解基准测试中的平均得分为73.3,超越了GPT-4o-mini的6分,显示出卓越的视觉语言能力。
🔸在医学领域,该模型在OpenMM-Medical数据集上得分达到83.8%,显著优于竞争对手Qwen2-VL-72B的80.7%。
🔸在视频理解任务中,该模型在多个基准上表现出色,尤其是在开放式视频问答任务中,超越了最新的开放源代码模型和一些专有模型。
🔸在音频理解任务中,Baichuan-Omni-1.5在多个基准测试中表现优异,尤其是在推理和回答准确度上超越了同类模型。
💡个人观点
论文的核心在于整合各种模态数据和多阶段训练,提高了多模态交互能力。
🧩附录