实战精选 | 在NPU上运行BGE embedding模型,提升RAG整体性能

介绍

BGE全称是BAAI General Embedding,即北京智源人工智能研究院通用Embedding模型,它可以将任意文本映射到低维的稠密向量,在文本向量化任务中得到了广泛的应用。可以看到在C-MTEB中文排行榜中,BGE系列模型的综合能力名列前茅,而在MTEB排行榜所有小于500MB的模型列表中,基于相同模型结构的BGE英文版本bge-large-en-v1.5的综合能力也能位列前五。

图片

图:BGE模型性能指标­

而作为英特尔AIPC架构中专用的AI处理器,NPU相较于CPU拥有更高的算力,并能以更低的能耗来运行深度学习模型。在类似RAG等的复杂任务中,我们往往需要利用Embedding, LLM, Ranker等多个模型­协同处理数据,通过将Embedding模型部署在NPU上,可以进一步优化其性能和能耗。OpenVINO™作为目前唯一可以同时在Intel CPU, GPU以及NPU平台上部署AI模型的工具套件,提供了一套通用API接口函数,方便开发者灵活地调度AIPC上的异构资源。本文将分享如何利用 OpenVINO™ 工具套件在NPU上部署BGE Embedding模型。

示例完整代码: https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-rag-langchain

OpenVINO™

模型转换

利用Optimum-intel命令行工具,我们便可以非常快速将BGE embedding模型导出为 OpenVINO™ 的IR格式文件。这里只需要指定模型的Hugging Face ID或是本地路径,以及任务类别为feature-extraction。

optimum-cli export openvino --model bge-large-zh-v1.5 --task feature-extraction bge-small-zh-v1.5

当以上命令执行完毕后,IR格式模型以及对应的tokenizer文件将被保存在bge-large-zh-v1.5目录下:

├── config.json

├── openvino_model.bin

├── openvino_model.xml

├── special_tokens_map.json

├── tokenizer_config.json

├── tokenizer.json

└── vocab.txt

由于 NPU 中的所有数据都将被转到到 fp16 精度进行计算,而 BGE Embedding 模型的原始精度是FP32,因此在FP32转FP16的过程中部分超过FP16表达范围的值会溢出,例如一个极小的负数,BGE Embedding也同样存在这个问题,所以这里我们会将这种类型的 Tensor 利用 OpenVINO™ 的 Transformation pass 机制进行替换。

图片

OpenVINO™

模型部署

接下来就是推理任务部署了,由于截至发文前NPU尚未完全支持动态输入的模型,因此我们在读取BGE模型后,需要将其每一个input shape进行固定,此外在处理原始文本输入的时候,也需要通过加Padding的方式,统一文本长度以匹配模型的input shape。这里我们以LangChain中集成的OpenVINO™ Embedding模型为例:

· 通过Tokenizer处理输入字符串

首先判断模型的input shape是否为静态的,如果是静态的,则基于其支持的向量长度,通过BGE模型自带的的Tokenizer进行padding,也就是对原始input token外的内容用特殊字符进行补足,直到满足模型input shape长度。

length = self.ov_model.request.inputs[0].get_partial_shape()[1]
if length.is_dynamic:
    features = self.tokenizer(    
        sentences_batch, padding=True, truncation=True, return_tensors="pt"    
    )
else:    
    features = self.tokenizer(
        sentences_batch,        
        padding="max_length",        
        max_length=length.get_length(),        
        truncation=True,        
        return_tensors="pt",     
    )

· 对模型进行reshape

在调用LangChain中的OpenVINOTM embedding对象时,我们需要指定"compile": False,然后将模型对象的input tensor进行reshape,固定其batch size和token长度,最后重新compile编译。

embedding.ov_model.reshape(1, 512)
embedding.ov_model.compile()

OpenVINO™

测试对比

接下来我们以CPU执行FP32的动态输入模型的结果为基准,比较NPU运行静态输入模型的结果,以此验证模型在NPU上执行的准确性。

在开始测试前,我们需要确保当前NPU的驱动版本为最新,大家可以通过以下链接下载最新的NPU驱动,https://www.intel.cn/content/www/cn/zh/download/794734/intel-npu-driver-windows.html,本次测试中使用的驱动版本为:32.0.100.2408。

这里我们也可以直接使用LangChain中的OpenVINOBgeEmbeddings模块进行测试。具体代码如下

from langchain_community.embeddings import OpenVINOBgeEmbeddings

embedding_model_name = npu_embedding_dir if USING_NPU else embedding_model_id.value
batch_size = 1 if USING_NPU else 4
embedding_model_kwargs = {"device": embedding_device.value, "compile": False}
encode_kwargs = {
    "mean_pooling": embedding_model_configuration["mean_pooling"],    
    "normalize_embeddings": embedding_model_configuration["normalize_embeddings"],    
    "batch_size": batch_size,
}

embedding = OpenVINOBgeEmbeddings(
    model_name_or_path=embedding_model_name,    
    model_kwargs=embedding_model_kwargs,    
    encode_kwargs=encode_kwargs,
)
if USING_NPU:
    embedding.ov_model.reshape(1, 512)
embedding.ov_model.compile()

text = "This is a test document."
embedding_result = embedding.embed_query(text)
embedding_result[:3]

该示例中我们需要将NPU上模型输入batch size限定为1,并比较BGE embedding模型在执行相同输入文本时的结果与误差。

· NPU输出embedding向量的前三位:

[-0.031266361474990845, 0.014588160440325737, 0.015173986554145813]

· CPU输出embedding向量的前三位:

[-0.031454551964998245, 0.014539799652993679, 0.015147135592997074]

· NPU与CPU输出的embedding向量误差总和:

0.04240982816008909

· NPU与CPU输出的embedding向量误差均值:

8.2831695625174e-05

可以看到虽然NPU上的BGE模型使用了Padding方式来匹配静态输入,但相较CPU上的运行结果,误差还是在一个比较小的范围内,可以直接代替CPU来提升性能,并优化能耗。

OpenVINO™

总结

本文为NPU设备部署BGE Embedding模型提供了一种参考路径。通过将Embedding模型部署在NPU上,可以在不影响模型输出准确性的前提下,极大优化模型的性能和能耗表现,进一步提升RAG等相关应用的综合能力。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值