低成本扩大输入图像分辨率，华中科大开源Monkey大模型，解锁密集文本问答的潜能

本文链接：https://blog.csdn.net/wisemodel/article/details/135112030

华中科技大学团队在始智AI社区开源的Monkey模型，通过高分辨率训练和多层级描述生成，实现了在多个多模态任务上的SOTA性能。模型采用有效方法提高输入分辨率，且在密集文本问答和日常生活场景中表现出色。

摘要由CSDN通过智能技术生成

始智AI wisemodel.cn社区已上线3个月，是类huggingface社区的产品，将努力打造成中国最活跃的中立AI开源社区。“源享计划”即开源共享计划，大家自己研发的开源模型和数据集，以及基于开源成果衍生的开源模型和数据集等，欢迎同步发布到国内wisemodel.cn社区，方便大家更容易获取和使用。

华中科技大学团队近日在始智AI wisemodel.cn开源社区发布的Monkey多模态大模型，输入分辨率支持896 x 1344像素，基于具有详细描述的高质量图文数据进行训练，在涉及图像文字、视觉问答、文档分类以及图像理解等多模态任务的18个不同的数据集上进行了测试，Monkey在其中16个测试数据集上皆取得SOTA的成绩。

模型地址：

https://wisemodel.cn/models/HUST-VLRLab/Monkey

一、Monkey模型概述

Monkey模型提出了一种有效地提高输入分辨率的方法，最高可达 896 x 1344 像素，而无需从零开始进行预训练。针对复杂场景描述、问答和叙述，Monkey模型采用了一种无需预训练即可提高输入分辨率的架构和一种多层级详细描述生成方法。这两个设计确保了模型能够从生成的数据中进行更有效的学习，更高的分辨率可以更详尽地捕捉视觉特征，这反过来又提高了详细描述的有效性。

Monkey模型基准测试对比图

在18个不同的数据集上进行测试的结果表明，Monkey在图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务中表现出有竞争力的性能。特别是，在以密集文本问答为主的定性评估中，与GPT4V相比，Monkey展现出了亮眼的结果。

二、Monkey模型主要方法

1、提高输入分辨率

在给定的高分辨率的图像，通过滑动窗口将图像划分为更小的局部区域，然后Monkey对每个图片局部区域的编码器都增加了独立的Lora来识别和吸收每个图像区域的细节敏感特征，从而增强对空间和上下文关系的理解。训练时只训练Lora部分，因此无需大幅增加参数量和计算需求。最后，通过视觉编码器和重采样器处理所有局部图像和全局图像，并将局部特征和全局特征送入LLM。这种方法能够在不显著增加计算负载的情况下提高模型分辨率和性能。

Monkey模型架构

2、多级特征整合详细描述生成

LLaVA、Qwen-VL等依赖于互联网上爬取的大规模图文数据及进行模型的预训练，这类数据标注比较简单，缺乏更丰富的图像细节。即使使用高分辨率图像进行训练，LMM 也可能无法在图像视觉特征和其中各个物体之间建立准确的关联，视觉处理和语言理解之间的协同作用无法得到有效的发挥。

Monkey模型采用多级特征融合的详细描述生成方法，利用 BLIP-2、PP-OCR、GRIT、SAM和 ChatGPT等预训练系统，为CC3M中的427k图像提供更加细致的描述，来更好地将高分辨率的视觉模型和语言模型对齐。

1）全局描述生成: Monkey使用BLIP2对整张图生成全局描述，并且使用CC3M原始标注作为全局描述的补充。

2）区域框和对应描述生成：Monkey使用 GRIT生成区域框，并提供区域中对象的名称和详细描述，包括它们的属性、动作和数量等信息。同时为了提取图像中的文本信息，还会使用PPOCR提取图像中的文本框坐标和文本内容。

3）分割图和对应描述生成：首先使用SAM模型提取图像中各个物体及其组成部分的分割图，然后利用分割图将物体抠出，送入BLIP2生成对各个物体及其组成部分的详细描述。

4）过滤低质量局部描述：由于在zero-shot场景中模型难免会生成低质量的标注，为了确保局部描述的正确性，Monkey还使用BLIP-2 评估图像区域、对象及其描述文本之间的一致性，过滤掉低分匹配。

5）ChatGPT总结：在最后阶段，将全局描述、过滤后的区域框和对应描述、过滤后的分割图和对应描述及其坐标输入 ChatGPT API 中总结。并让ChatGPT考虑各个物体之间的位置关系及其相互关联。

3、多任务训练

为训练一个既高效又能理解各种任务的不同类型图像的模型，Monkey模型整合了多个数据集，并在所有任务中使用相同类型的指令，从而加强模型的学习能力和训练效率。对于图像描述任务，使用 “Generate the caption in English：” 来生成基本描述，使用 “Generate the detailed caption in English:” 来生成详细描述。关于图片的问答任务，直接使用 “\{question\} Answer:\{answer\}.”的格式。

三、部分结果展示

1、密集文本问答

在密集文本问答任务中，Monkey甚至能够完成GPT4V都发愁的难题。在物品标签的密集文本中，Monkey能够准确回答出物品的各种信息，相比于GPT4V有十分亮眼的表现。