以文搜图是跨模态图文检索的一部分,那么什么是跨模态图文检索?说的通俗易懂,就是实现文字和图片两种不同格式数据之间的互相搜索,通过文字描述找到最符合的图片,或者搜寻最适合图片的文字描述。不同于通过标签将文本和图片关联起来,跨模态模型能够从语义或内容含义的角度匹配不同类型的数据,这种检索方式更接近人为判断,更加“人工智能”。
如今最热门的跨模态文本图片模型莫过于 CLIP,推荐一些原理详解和基于 CLIP 搭建文本图片搜索系统的教程:从零到一,教你搭建「以文搜图」搜索服务(一)_Zilliz Planet的博客-CSDN博客_以文搜图 和 从零到一,教你搭建「CLIP 以文搜图」搜索服务(二):5 分钟实现原型_Zilliz Planet的博客-CSDN博客。我这里就不进行赘述了,接下来主要介绍大家很关心的一个问题:是否有预训练好的多语言 CLIP 模型?更直白一些,能用中文搜图片吗?
先上代码: