【MLLM系列】MiniCPM-V

一夜了

已于 2025-04-09 18:55:06 修改

阅读量1.4k

点赞数 30

分类专栏：每日论文文章标签： minicpm 多模态大模型 qwen llava 多模态深度学习人工智能

于 2024-09-13 20:58:40 首次发布

本文链接：https://blog.csdn.net/yiyele/article/details/142218265

版权

13 篇文章

订阅专栏

1. 简介

本文主要探索如何在性能和效果之间的权衡，希望能在合适的性能下，模型效果有大幅的提升。主要贡献点有：

通过模型结构，数据，训练策略等优化，让MiniCPM-Lllama3-V 2.5[1]在OpenCompass评测上超过了GPT-4V-1106，Gemini Pro和Claude3；
有很强的OCR能力，在1.8M任意分辨率图片数据的支持下，使MiniCPM-Llama3-V 2.5在OCRBench上超过了GPT-4V，Gemini Pro和Qwen-VL-Max。支持table到markdown等能力；
在RLAIF-V[3]和RLHF-V[2]技术加持下，让MiniCPM模型有更强的真实表现，幻觉问题低于GPT-4V-1106等；
支持多语言；
有效的端侧模型部署；

在这里插入图片描述

模型训练包括三个阶段，pre-training，supervised fine-tuning和RLAIF-V。

Stage-1
- 目的和动作：训练compression layer，能连接visual encoder和LLM；随机初始化compression layer参数，固定住其他模块参数。
- 参数：ViT分辨率设置为224*224；
- 数据：随机选择200M caption数据，会执行数据清理，包括删除相关性差的图像-文本对和格式错误的数据。具体数据如下：
Stage-2
- 目的和动作：增加预训练输入图片的分辨率，从224224到448448，仅训练visual encoder。
- 数据：从上表中选择200M的caption数据。
Stage-3
- 目的和动作：为了适应不同高分辨率图片的比例，训练ViT和compression layer。
- 数据：使用OCR和caption数据
Caption Rewriting：因为一些caption数据质量比较低，所以使用模型对caption进行改写。例如，GPT-4模型。
Data Packing：将长度类似的sample放到一个sample中，增加模型的训练效率。同时需要修改position ids和attention mask策略避免不同样本之间互相干扰。
Multilingual Generalization：在pretrain阶段仅使用english和chinese多模态数据进行训练，在sft阶段，通过high-quality multilingual supervised fine-tuning对齐到目标语言。VisCPM证明了多模态能力可以通过强大的LLM进行有效的泛化。

Trainable Modules：训练ViT，compression layer和LLM
Data：
- 部分1: 增强模型的基本能力，包括短回复的传统的QA和caption数据；
- 部分2: 增强模型生成详细回复和指令遵循能力，包括长回复的复交交互数据。
- 在sft中，两部分数据会拼接起来，按顺序输入到模型中。
- 对MiniCPM-Llama3-V2.5来说，从Cauldron dataset中抽取2M数据用于知识增强，搜集36种语言共90K数据用于增强多语言能力。

在这里插入图片描述

为了缓解幻觉问题，增加模型的可靠性，搜集高质量的反馈数据用于DPO训练。

Response Generation：用待对齐的模型对每个prompt生成10个response
Feedback Collection：使用divide-and-conquer策略用于回复打分，每个回复会被llama3-8B分成多个claims，然后将每个claims转成qa问题用开源模型来打分，最后，用不合理的claims数的负数当作最后的response的分数。
Direct Preference Optimization：构建了6K偏好数据

在这里插入图片描述

目前MiniCPM-V2.6已经发布了，有了更强的OCR，多语言，可靠性，因为目前technical report还没发布，技术细节还不清楚。

[1] MiniCPM-V: A GPT-4V Level MLLM on Your Phone
[2] RLHF-V: Towards trustworthy MLLMs via behavior alignment from fine-grained correctional human feedback
[3] RLAIF-V: Aligning MLLMs through open-source AI feedback for super GPT-4V trustworthiness