华中科技大学团队近日在始智AI wisemodel.cn开源社区发布的Monkey多模态大模型,输入分辨率支持896 x 1344像素,基于具有详细描述的高质量图文数据进行训练,在涉及图像文字、视觉问答、文档分类以及图像理解等多模态任务的18个不同的数据集上进行了测试,Monkey在其中16个测试数据集上皆取得SOTA的成绩。

模型地址:
https://wisemodel.cn/models/HUST-VLRLab/Monkey
一、Monkey模型概述
Monkey模型提出了一种有效地提高输入分辨率的方法,最高可达 896 x 1344 像素,而无需从零开始进行预训练。针对复杂场景描述、问答和叙述,Monkey模型采用了一种无需预训练即可提高输入分辨率的架构和一种多层级详细描述生成方法。这两个设计确保了模型能够从生成的数据中进行更有效的学习,更高的分辨率可以更详尽地捕捉视觉特征,这反过来又提高了详细描述的有效性。

Monkey模型基准测试对比图
在18个不同的数据集上进行测试的结果表明,Monkey在图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务中表现出有竞争力的性能
华中科技大学团队开源Monkey多模态大模型,支持896 x 1344像素输入,无需预训练即能提升分辨率。Monkey在18个数据集上表现优异,尤其在密集文本问答任务中超越GPT4V。模型通过提高输入分辨率和多级特征整合详细描述生成,实现高效图像理解和语言模型对齐。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



