服务器或本地部署MobileVLM模型

最新推荐文章于 2025-03-19 18:42:42 发布

敲代码的牙套

最新推荐文章于 2025-03-19 18:42:42 发布

阅读量1.5k

点赞数 15

文章标签：服务器人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_72973634/article/details/139334139

版权

MobileVLM简介

视觉-语言模型（VLM）已成为当今人工智能领域的一个研究热点。通过融合大型语言模型（LLM）和多模态功能，视觉-语言模型展现出前所未有的多功能性。

美团、浙大等推出的VLM模型 MobileVLM V2，其中包含参数量 1.7B、3B、以及 7B 的一系列视觉-语言模型。代码与模型以及适配的端侧推理方案都已开源。归功于 MobileVLM 在小参数量下的强大性能和完善的端侧实时运行端侧推理方案，MobileVLM 一经推出就受到了国内外开源社区的广泛关注。

在延续前作优势的基础上，MobileVLM V2 进行了显著的改进，使用了新颖的架构设计、针对移动端 VLM 量身定制训练方案、并丰富了高质量数据，使 MobileVLM V2 的性能表现更上一层楼的同时，也为业界对于端侧视觉语言模型解决方案提供了新的思路。

具体而言，与参数量更大的 3B VLM 相比，MobileVLM V2 1.7B 在标准 VLM 基准测试中达到了同等甚至更好的的性能；特别是 MobileVLM V2 3B 模型在某些标准测试基准上甚至优于参数规模 7B 甚至更大的 VLM
————————————————

以上内容引自PaperWeekly的文章《端侧实时运行、3B媲美7B！美团、浙大等提出MobileVLM V2：更快、更强的端侧视