多模态语义检索 | 基于 MetaSpore 快速部署 HuggingFace 预训练模型

本文介绍了如何使用MetaSpore技术生态快速部署HuggingFace预训练模型进行多模态语义检索,包括以文搜文和以文搜图。系统涉及离线处理、模型推理和在线服务,利用HuggingFace的预训练模型进行在线推理,解决多模态检索中的语义鸿沟问题。通过案例展示了以文搜文和以文搜图的检索流程,强调了预训练模型在工业界的落地应用。
摘要由CSDN通过智能技术生成

首先,附上 Github 链接MetaSpore:https://github.com/meta-soul/MetaSpore,可搜索公众号元灵数智,在底部菜单了解我们 - 用户交流获取官方技术交流群二维码,进群与业内大佬进行技术交流。

随着深度学习技术在计算机视觉、自然语言处理、语音理解等领域不断取得创新性突破,越来越多的非结构化数据被机器进行感知、理解和加工。这些进展主要得益于深度学习的强大表征学习能力,通过在海量数据上对深度模型进行预训练,使得模型捕捉到数据内在模式,进而对大量下游任务带来帮助。随着工业界和学术界投入越来越多精力在预训练技术研究上,陆续出现了 HuggingFace 和 Timm 这样的预训练模型分发仓库,预训练大模型红利正在被开源社区以前所未有的速度在释放着。

近年来机器建模和理解的数据形态逐渐从单模态向多模态演进,不同模态之间的语义鸿沟正在消弭,使得跨模态检索落地成为可能。以 OpenAI 的开源工作 CLIP 为例,在 4 亿图文数据集上对图文双塔模型进行预训练,将图像和文本之间的语义衔接了起来,学术界已经有不少研究人员在基于这项技术解决图文生成、检索等多模态问题。回到工业界来看,虽然前沿技术打通了多模态数据之间的语义鸿沟,但依然存在繁复的模型调优、离线数据处理、高性能的线上推理架构设计、异构计算以及在线算法应用落地等多个流程和挑战,这些都阻碍了前沿多模态检索技术的落地和普惠。

北京数元灵科技针对以上技术痛点,对模型训练优化、线上推理、算法实验等多个环节进行抽象统一,形成一套可以快速应用离线预训练模型到线上的解决方案。本文将向大家介绍,如何基于 MetaSpore 技术生态来使用 HuggingFace 社区预训练模型进行线上推理和算法实验,让预训练模型红利更充分释放到工业界、普惠到中小企业的具体业务中,并且我们会给出以文搜文以文搜图两个多模态检索演示样例供大家参考。

1.多模态语义检索

本文介绍的多模态检索演示样例架构如下:

我们的多模态检索系统同时支撑以文搜文和以文搜图应用场景,含有离线处理、模型推理以及在线服务等核心模块:

1.离线处理,含有以文搜文和以文搜图不同应用场景的离线数据处理流程,包括模型调优、模型导出、数据索引建库、数据推送等。

2.模型推理,离线模型训练完毕之后,我们基于 MetaSpore Serving 框架,部署我们的 NLP、CV 大模型,MetaSpore Serving 可以帮助我们方便地进行在线推理、弹性调度、负载均衡,以及在异构环境中进行资源调度。

3.在线服务,我们基于 MetaSpore 在线算法应用框架,打造了一套完整可重用的在线检索服务,包括:前端检索 UI、多模态数据预处理、向量召回和排序算法、AB 实验框架等,同时支撑以文搜文和以文搜图场景,并可低成本迁移到其它应用场景。

一般来说,对于类似的多模态检索问题,HuggingFace 开源社区已经提供了很多优秀的基线模型,工业界的实际优化往往也是以此为起点。我们在以文搜文和以文搜图的线上服务中同样使用了 HuggingFace 社区的预训练模型,其中以文搜文基于我们调优的问答领域语义相似模型,以文搜图基于开箱即用的社区预训练模型。

这些社区开源预训练模型会被导出为通用 ONNX 格式,并载入 MetaSpore Serving 进行在线推理,下文会对模型的导出上线、数据的检索建库以及在线检索算法服务等内容展开详细的介绍。其中模型推理的部分,是标准化的 SAAS 服务,和业务的耦合性较低,感兴趣的读者可以参考我们之前的公众号文章:揭秘!新一代一站式机器学习平台MetaSpore的设计理念

1.1 离线处理

离线处理主要涉及到上线模型的导出和载入以及文档库的索引建库和推送,大家可以按照下文逐步指引来完成以文搜文和以文搜图检索的离线处理工作,通过这两个样例大家也可以了解离线预训练模型是怎样实现在 MetaSpore Serving 上推理的。

1.1.1 以文搜文

传统的文本检索系统基于 BM25 之类的字面匹配算法实现,由于用户表达 query 查询词多种多样,往往会遇到查询词跟文档之间语义鸿沟的问题,比如用户把 “iPhone” 错拼为 “Ihone”、查询词极为长尾 “1~3月龄男婴秋季小尺码包包裤”等,传统文本检索系统会利用拼写纠错、同义词扩展、查询词改写等手段来缓解语义鸿沟问题,但未能从根本上解决这个问题。检索系统只有充分理解了用户查询词和文档

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>