MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读

大模型的趋势:模型性能越来越好,模型参数变小,端边设备计算能力变强。

MiniCPM-V优点

结果好、OCR能力突出、多分辨率、多语言、易于部署

模型结构

在这里插入图片描述
图片encoder适用vit。输入整体以及切片。切片使用自适应算法,通过计算分数,选取一个mxn,位置编码改用2d方式。然后通过压缩模块,将1024维的tokens压缩到64/96维,增大推理速度。在每一行到切片后加入换行符号,保持空间一致性。最后送入LLM。

训练过程

分为3步:预训练、有监督微调 以及RLAIF-V对齐

预训练

在这里插入图片描述

用于对齐视觉模块。分为3个stage

  • 训练压缩模块,连接语言与视觉特征,冻结其他层。使用清洗过后的200万的Image Captioning数据。
  • 更改输入分辨率224->448。只训visual encoder。200万的Image Captioning数据。
  • 训练压缩模块+visual encoder。LLM不动,Image Captioning数据+OCR数据

其他tricks

  • 数据重新描述。使用GPT优化描述
  • 数据打包。所有的数据打包到一个固定的长度。加快预训练2-3倍。
  • 语言泛化能力。只在中文和英文语言上训练。然后通过多语言的监督微调对齐到目标语言。

有监督微调SFT

在这里插入图片描述

使用GPT标注问答数据,训练所有模块。数据主要为高质量的视觉问答。
数据分为2部分。一部分增强模型基础识别能力,短句子为主。一部分增强模型细节、跟随人类指令能力。

RLAIF-V对齐

在这里插入图片描述

  • 问政策、法规之类的问题。然后让模型产出10个响应。
  • 分治思想。将响应拆分几个部分。每一个不问问一个LLM,让LLM去打分。最后综合打分得到响应的结果。
  • 使用DPO优化,利用6K个对齐数据集。成对样本优化。

端边部署

在这里插入图片描述
主要的挑战在于,内存限制、CPU、GPU的算力限制。
常用的策略为量化。fp16 16-17G、int4大约5G。部署框架上,cpu还是慢,小米8为例,一个tokens1.3s。

高级策略

在这里插入图片描述

  • 内存优化。序列内存占用。先vit encoder,再LLM。45->31s
  • 编译优化。在对应的设备上进行编译。50->17。1.3->3.2
  • 配置优化,自动在对应的设备上选择最优的配置参数,3.2->8.2
  • NPU优化,使用NPU做vit encoder。encoders时间3.7->1.3
    在这里插入图片描述
    当前主要消耗的时间在LLM的预填充。也就是img encode+text encode

实验

不同的系列
在这里插入图片描述
benchmark选择了通用、OCR以及幻觉相关
在这里插入图片描述
通用能力
在这里插入图片描述
OCR能力
在这里插入图片描述
多语言很好
在这里插入图片描述
语言正则化效果显著
在这里插入图片描述
不同的分辨率
在这里插入图片描述
幻觉减弱

对齐相关:

https://blog.csdn.net/v_JULY_v/article/details/134242910

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yang_daxia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值