书生大模型 - 进阶岛 - 第五关 - 茴香豆企业级知识库问答工具

1. 茴香豆介绍:这个名字不知道谁起的,还是蛮有意思,也比较朴实。RAG和知识库问答,一个基本泛滥的主题,不再铺垫。茴香豆还是比较有特色的,主要有以下几个方面:

  • 三阶段 Pipeline (前处理、拒答、响应),提高相应准确率和安全性

  • 支持各种硬件配置安装,安装部署限制条件少

  • 适配性强,兼容多个 LLM 和 API

  • 傻瓜操作,安装和配置方便

2. 实际安装调试,不再赘述,大家可以看Tutorial/docs/L2/Huixiangdou/readme.md at camp3 · InternLM/Tutorial (github.com)

上海人工智能实验室提供了网页版和本地标准版,两种模式。在此主要展示本地如何部署如何展示;

cd /root
# 克隆代码仓库
git clone https://github.com/internlm/huixiangdou && cd huixiangdou
git checkout 79fa810

apt update
# 安装依赖环境
apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev
# python requirements
pip install BCEmbedding==0.15 cmake==3.30.2 lit==18.1.8 sentencepiece==0.2.0 protobuf==5.27.3 accelerate==0.33.0
pip install -r requirements.txt

配置模型,由于远程服务器已安装了相关模型,不用再次下载。这里主要安装了三个模型,embedding模型、reranker模型和LLM模型,embedding主要负责向量化,reranker是根据检索到的数据进行reranker,或者进行preprocessing的一些工作。这里在茴香豆当中都进行了封装。

cd /root && mkdir models

# 复制BCE模型
ln -s /root/share/new_models/maidalun1020/bce-embedding-base_v1 /root/models/bce-embedding-base_v1
ln -s /root/share/new_models/maidalun1020/bce-reranker-base_v1 /root/models/bce-reranker-base_v1

# 复制大模型参数(下面的模型,根据作业进度和任务进行**选择一个**就行)
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b /root/models/internlm2-chat-7b

3. 配置调整,这里主要是对阈值、模型路径和特征检索路径等常规内容进行设置。

配置好之后,把知识导入到指定文件夹,并进行python3 -m huixiangdou.service.feature_store这个操作,然后进行了测试,具体大家可以看看这个测试过程,我进行了很多标注和标红。

我问的是xtuner微调如何实现,然后可以依次可以看到,pipeline首先进行了重新query过程,找到主语和主题,然后根据语义进行匹配,然后综合起来进行回答。最终对初次回答的内容进行了过滤,最后呈现了问答。

4. 我拿一篇文章进行了测试,《九天智慧网络仿真平台设计和开放服务.pdf》,在gradio提供的网页服务中进行了配置,对pipeline type进行了配置,最终进行了回答。可以发现,效果还是很准确地进行了回答。试验效果还是不错。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值