基于 SigLip-400M 和 Qwen2-7B 构建,共 8B 参数,性能提升显著,并引入了多图和视频理解的新功能。 官方宣称单图、多图和视频理解性能超越了 GPT-4V。在单图理解上,它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等商用闭源模型的表现。 视频演示的 iPad 应用我没找到,有找到的评论区可以踢一下,不过这里有一个在线试用地址