自OpenAI发布GPT-4V以来,也掀起了各大企业对于多模态大模型的研究热潮。和以往的生图模型相比,多模态模型已突破文本限制,图像理解和识别能力尤为突出。
本周,集简云上线AI图像识别与问答功能,集成OpenAI和Anthropic两大服务商的GPT-4V和Claude 3模型,可对输入的图像进行深入的识别和理解,进而提供详尽的问答服务。
模型介绍
GPT-4V
GPT-4V(GPT-4 Turbo with Vision)是OpenAI最受瞩目的带有视觉能力的模型,它使得用户可以通过图像与GPT-4进行交互,标志着GPT-4正式成为一个多模态模型,具备对于图像的理解能。
Claude 3
Claude 3 擅长复杂视觉功能,Opus和Sonnet版本均可以处理各种视觉格式,包括照片、图表、图形和技术图表等,推理能力更强,回复的解题水平和准确率更高,在一些细节描述上比GPT-4更胜一筹。
使用示例
GPT-4V
示例1:可以通过截图向GPT4 V模型提问:
汽车的这个指示灯亮了,我该怎么办