MobileVLM简介
视觉-语言模型(VLM)已成为当今人工智能领域的一个研究热点。通过融合大型语言模型(LLM)和多模态功能,视觉-语言模型展现出前所未有的多功能性。
美团、浙大等推出的VLM模型 MobileVLM V2,其中包含参数量 1.7B、3B、以及 7B 的一系列视觉-语言模型。代码与模型以及适配的端侧推理方案都已开源。归功于 MobileVLM 在小参数量下的强大性能和完善的端侧实时运行端侧推理方案,MobileVLM 一经推出就受到了国内外开源社区的广泛关注。
在延续前作优势的基础上,MobileVLM V2 进行了显著的改进,使用了新颖的架构设计、针对移动端 VLM 量身定制训练方案、并丰富了高质量数据,使 MobileVLM V2 的性能表现更上一层楼的同时,也为业界对于端侧视觉语言模型解决方案提供了新的思路。
具体而言,与参数量更大的 3B VLM 相比,MobileVLM V2 1.7B 在标准 VLM 基准测试中达到了同等甚至更好的的性能;特别是 MobileVLM V2 3B 模型在某些标准测试基准上甚至优于参数规模 7B 甚至更大的 VLM
————————————————
以上内容引自PaperWeekly的文章《端侧实时运行、3B媲美7B!美团、浙大等提出MobileVLM V2:更快、更强的端侧视