低成本扩大输入图像分辨率,华中科大开源Monkey大模型,解锁密集文本问答的潜能

华中科技大学团队开源Monkey多模态大模型,支持896 x 1344像素输入,无需预训练即能提升分辨率。Monkey在18个数据集上表现优异,尤其在密集文本问答任务中超越GPT4V。模型通过提高输入分辨率和多级特征整合详细描述生成,实现高效图像理解和语言模型对齐。
摘要由CSDN通过智能技术生成

华中科技大学团队近日在始智AI wisemodel.cn开源社区发布的Monkey多模态大模型,输入分辨率支持896 x 1344像素,基于具有详细描述的高质量图文数据进行训练,在涉及图像文字、视觉问答、文档分类以及图像理解等多模态任务的18个不同的数据集上进行了测试,Monkey在其中16个测试数据集上皆取得SOTA的成绩。

图片

模型地址:

https://wisemodel.cn/models/HUST-VLRLab/Monkey

一、Monkey模型概述

Monkey模型提出了一种有效地提高输入分辨率的方法,最高可达 896 x 1344 像素,而无需从零开始进行预训练。针对复杂场景描述、问答和叙述,Monkey模型采用了一种无需预训练即可提高输入分辨率的架构和一种多层级详细描述生成方法。这两个设计确保了模型能够从生成的数据中进行更有效的学习,更高的分辨率可以更详尽地捕捉视觉特征,这反过来又提高了详细描述的有效性。

图片

Monkey模型基准测试对比图

在18个不同的数据集上进行测试的结果表明,Monkey在图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务中表现出有竞争力的性能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值