InternLM 实战营笔记-3-RAG助手

zwplus

已于 2024-04-12 20:15:30 修改

阅读量762

点赞数 28

分类专栏： InternLM 实战营笔记文章标签：笔记

于 2024-04-12 20:14:49 首次发布

本文链接：https://blog.csdn.net/zwplus/article/details/137693249

版权

InternLM 实战营笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

InternLM 实战营笔记-3-RAG助手

RAG 检索式增强

RAG(检索式增强生成)，其核心思想是在LLM回答问题或者生成文本时会先从事前构建好的知识库(文献资料)中检索相关信息，然后基于相关问题和检索到的信息来回答问题或者文本，从而提高预测质量。如果说大模型在之前回答用户问题是在参与一场闭卷考试，那现在通过RAG技术，大模型回答用户的问题就是在参加一场开卷考试，RAG技术中构建的知识库也就相当于开卷考试时带进考场的资料。

整体来说RAG可以在一定程缓解LLM存在的以下问题:

幻觉问题：LLM在生成文本还是基于概率的Token by Token式的生成，因此存在一定概率胡说八道的情况，而RAG的存在，可以给模型提供更多信息，可以在一定程度上提高LLM生成正确Token的概率。
时效性问题：当前LLM的训练周期往往比较长，因此一些像新闻的时间敏感型信息很难参与到模型训练的过程中，而通过RAG技术，可以将这些时间敏感信息以知识库的形式提供给大模型，这样模型就能够回答一些时间敏感问题了。
数据安全问题：通用LLM模型通常是缺乏一些企业内部的数据和用户个人数据的，企业和用户想要在确保私有数据安全情况下还能够根据这些私有数据回答相关问题，一种方式就是使用这些私有数据去训练一个本地模型，但是这样成本过高。而RAG则可以通过构建本地知识库的方式，在保证数据安全情况下使得LLM也能够根据这些私有数据中的信息回答相关问题。

RAG整体流程

RAG工作流程可以分为以下三步：1.索引；2.检索；3.生成

索引:索引操作就是构建我们知识库的过程。其首先对各种文档、网页中的信息进行分割切片，然后再使用Embedding模型将其切片后的信息编码成一个知识向量，然后存储在向量数据库中（知识库）。
检索：检索操作就是在知识库中找到和用户请求密切相关信息。当大模型接收到用户的请求后，使用与构建知识库时相同的Embedding模型将用户请求也编码成向量，然后与知识库中存储的知识向量进行比对，找到与用户请求密切相关知识向量，最后使用Reranker模型对找的相关知识向量根据相关程度进行排序，然后选择其中最相关的Top-K个知识向量作为我们检索到的最相关的知识向量。
生成：生成操作就是LLM根据用户请求做出相应响应的过程。在这一步里，我们不仅会向大模型输入用户的请求信息还会将我们检索到的信息一并输入给模型，使得模型能够根据知识库中的信息来回答用户的请求。

RAG相关优化方法

索引优化：嵌入优化、索引优化

检索优化：查询优化、上下文管理、迭代检索、递归检索、自适应检索

生成优化：LLM微调

在这里插入图片描述

RAG vs SFT(微调)

	RAG	SET
特性	1.非参数化记忆，可以通过外部知识库时更新记忆，2.可以处理知识密集型任务，提供准确的事实性回答，3.通过检索增强可以生成多样化的内容	1.参数化记忆，通过在特定任务的数据上进行微调训练，模型能够很好地适应特定任务；2.有效的模型微淘通常需要大量的标注数据；3.微调可能会导致模型出现遗忘的情况，即在原有任务上的表现下降。
适用场景	适用一些时间敏感型和对数据安全要求的任务	适用于相关数据充足同时对模型性能要求较高的场景
缺陷	非常依赖于知识库的质量和覆盖范围，依赖于大模型的能力	需要大量标注的数据，每个新任务都需要重新训练模型，成本较高

在 `InternLM Studio` 上部署茴香豆技术助手

配置相关环境

!studio-conda -o internlm-base -t InternLM2_Huixiangdou  #这里使用官方提供好的镜像环境配置，安装好再使用jupyter并选择该环境

配置负责将文本编码成embedding和后续对搜索结果进行排序的模型（软链接）
!ln -s /root/share/new_models/maidalun1020/bce-embedding-base_v1 /root/models/bce-embedding-base_v1
!ln -s /root/share/new_models/maidalun1020/bce-reranker-base_v1 /root/models/bce-reranker-base_v1

# 复制大模型参数，这里用于本地部署LLM模型
!ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b /root/models/internlm2-chat-7b

#安装茴香豆所需包
%pip3 install protobuf==4.25.3 accelerate==0.28.0 aiohttp==3.9.3 auto-gptq==0.7.1 bcembedding==0.1.3 beautifulsoup4==4.8.2 einops==0.7.0 faiss-gpu==1.7.2 langchain==0.1.14 loguru==0.7.2 lxml_html_clean==0.1.0 openai==1.16.1 openpyxl==3.1.2 pandas pydantic==2.6.4 pymupdf==1.24.1 python-docx==1.1.0 pytoml==0.1.21 readability-lxml==0.8.1 redis==5.0.3 requests==2.31.0 scikit-learn==1.4.1.post1 sentence_transformers==2.2.2 textract==1.6.5 tiktoken==0.6.0 transformers==4.39.3 transformers_stream_generator==0.0.5 unstructured==0.11.2

#下载茴香豆的仓库
!cd /root
# 下载 repo
!git clone https://github.com/internlm/huixiangdou && cd huixiangdou
!git checkout 447c6f7e68a1657fce1c4f7c740ea1700bde0440

设置茴香豆运行相关配置

#修改茴香豆配置文件里的embedding、reranker意见本地llm路径，也可以直接去修改文件
!sed -i '6s#.*#embedding_model_path = "/root/models/bce-embedding-base_v1"#' /root/huixiangdou/config.ini
!sed -i '7s#.*#reranker_model_path = "/root/models/bce-reranker-base_v1"#' /root/huixiangdou/config.ini
!sed -i '29s#.*#local_llm_path = "/root/models/internlm2-chat-7b"#' /root/huixiangdou/config.ini

在这里插入图片描述

准备知识库以及good-question、bad-question

#下有关茴香豆的相关文档，这里直接把茴香豆的仓库download下来，作为我们的知识库的原始数据信息
!cd /root/huixiangdou && mkdir repodir
!git clone https://github.com/internlm/huixiangdou --depth=1 repodir/huixiangdou

# 构建good-question和bad-question

import os
os.chdir('/root/huixiangdou')
!pwd
#这里先备份的原有接受问题列表
!mv resource/good_questions.json resource/good_questions_bk.json

#重新构建一个接受问题列表
!echo '[ "mmpose中怎么调用mmyolo接口",
    "mmpose实现姿态估计后怎么实现行为识别",
    "mmpose执行提取关键点命令不是分为两步吗，一步是目标检测，另一步是关键点提取，我现在目标检测这部分的代码是demo/topdown_demo_with_mmdet.py demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth   现在我想把这个mmdet的checkpoints换位yolo的，那么应该怎么操作",
    "在mmdetection中，如何同时加载两个数据集，两个dataloader",
    "如何将mmdetection2.28.2的retinanet配置文件改为单尺度的呢？",
    "1.MMPose_Tutorial.ipynb、inferencer_demo.py、image_demo.py、bottomup_demo.py、body3d_pose_lifter_demo.py这几个文件和topdown_demo_with_mmdet.py的区别是什么，\n2.我如果要使用mmdet是不是就只能使用topdown_demo_with_mmdet.py文件，",
    "mmpose 测试 map 一直是 0 怎么办？",
    "如何使用mmpose检测人体关键点？",
    "我使用的数据集是labelme标注的，我想知道mmpose的数据集都是什么样式的，全都是单目标的数据集标注，还是里边也有多目标然后进行标注",
    "如何生成openmmpose的c++推理脚本",
    "mmpose",
    "mmpose的目标检测阶段调用的模型，一定要是demo文件夹下的文件吗，有没有其他路径下的文件",
    "mmpose可以实现行为识别吗，如果要实现的话应该怎么做",
    "我在mmyolo的v0.6.0 (15/8/2023)更新日志里看到了他新增了支持基于 MMPose 的 YOLOX-Pose，我现在是不是只需要在mmpose/project/yolox-Pose内做出一些设置就可以，换掉demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py 改用mmyolo来进行目标检测了",
    "mac m1从源码安装的mmpose是x86_64的",
    "想请教一下mmpose有没有提供可以读取外接摄像头，做3d姿态并达到实时的项目呀？",
    "huixiangdou 是什么？",
    "使用科研仪器需要注意什么？",
    "huixiangdou 是什么？",
    "茴香豆 是什么？",
    "茴香豆 能部署到微信吗？",
    "茴香豆 怎么应用到飞书",
    "茴香豆 能部署到微信群吗？",
    "茴香豆 怎么应用到飞书群",
    "huixiangdou 能部署到微信吗？",
    "huixiangdou 怎么应用到飞书",
    "huixiangdou 能部署到微信群吗？",
    "huixiangdou 怎么应用到飞书群",
    "huixiangdou",
    "茴香豆",
    "茴香豆 有哪些应用场景",
    "huixiangdou 有什么用",
    "huixiangdou 的优势有哪些？",
    "茴香豆 已经应用的场景",
    "huixiangdou 已经应用的场景",
    "huixiangdou 怎么安装",
    "茴香豆 怎么安装",
    "茴香豆 最新版本是什么",
    "茴香豆 支持哪些大模型",
    "茴香豆 支持哪些通讯软件",
    "config.ini 文件怎么配置",
    "remote_llm_model 可以填哪些模型?" ]' > /root/huixiangdou/resource/good_questions.json

#这里构建用于测试接受和拒绝答列表是否生效的测试·问题列表，这里我们测试一个拒答和接受以及两个不在列表中的问题
!echo '["本垃圾在缓慢学习这些玩意","茴香豆 支持哪些大模型","如何将多模态大模型和RAG结合起来","上海AI-Lab的地址是？"]' > /root/huixiangdou/test_queries.json

构建向量数据库

# 创建向量数据库存储目录
!cd /root/huixiangdou && mkdir workdir 
import os
os.chdir('/root/huixiangdou')
# 分别向量化知识语料、接受问题和拒绝问题中后保存到 workdir ，这里应该是会默认把repodir目录下文件作为知识语料库，resource中存放接受和拒绝问题列表
!python3 -m huixiangdou.service.feature_store --sample ./test_queries.json

在这里插入图片描述

运行茴香豆助手

# 填入问题
!sed -i '74s/.*/    queries = ["huixiangdou 是什么？", "茴香豆怎么部署到微信群", "上海AI-Lab的地址是"]/' /root/huixiangdou/huixiangdou/main.py

# 运行茴香豆
!cd /root/huixiangdou/
!python3 -m huixiangdou.main --standalone


#从日志观察来，整体上流程如下：
1.判断句子是否是问句(LLM)
2.总结句子的主题(LLM)，根据句子主题来鉴别一下问题是否需要进行回答
3.可能是用大模型总结出的主题再去知识库中检索相关材料，而不是直接用用户原始的输入去检索的。
4.判断检索到材料和原本问题之间的相关程度(LLM),这里好像会根据相关程度，对材料重新排序
5.将搜索到材料和用户输入一起输入给LLM，LLM生成相应回答。

在这里插入图片描述

在 Web版中构建自己的知识问答助手

因为平时管理实验室服务器的，因此经常会有同学像我问一下有关服务器适用的问题，因此这里考虑将建一个有关服务器使用的问答助手。

将实验室服务器使用文档上传至web端构建知识库，并设置相应的问答示例

在这里插入图片描述

与web端茴香豆助手对话，测试效果

在这里插入图片描述

使用茴香豆-APP端-部署问答助手到微信

在这里插入图片描述

在本地服务器部署茴香豆-构建个人文档助手

这里目的与之前一致，构建一个有关服务器使用的个人问答助手，这里我们本地服务器部署基于gradio的web端

配置茴香豆代码、运行环境和下载embedding和reranker模型权重

import os
os.chdir('/root/huixiandou')

!git clone https://github.com/InternLM/HuixiangDou.git
os.chdir('/root/huixiandou/HuixiangDou')

!git checkout 447c6f7e68a1657fce1c4f7c740ea1700bde0440

%pip install protobuf==4.25.3 accelerate==0.28.0 aiohttp==3.9.3 auto-gptq==0.7.1 bcembedding==0.1.3 beautifulsoup4==4.8.2 einops==0.7.0 faiss-gpu==1.7.2 langchain==0.1.14 loguru==0.7.2 lxml_html_clean==0.1.0 openai==1.16.1 openpyxl==3.1.2 pandas pydantic==2.6.4 pymupdf==1.24.1 python-docx==1.1.0 pytoml==0.1.21 readability-lxml==0.8.1 redis==5.0.3 requests==2.31.0 scikit-learn sentence_transformers==2.2.2 textract==1.6.5 tiktoken==0.6.0 transformers==4.39.3 transformers_stream_generator==0.0.5 unstructured==0.11.2

#用于解析docx文档
!apt update && apt -y install python-dev python libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev

#下载embedding和reranker模型权重
os.environ['HF_HUB_ENABLE_HF_TRANSFER']='1'  #加速
os.environ['http_proxy']='http://127.0.0.1:7890'
os.environ['https_proxy']='http://127.0.0.1:7890'
#下载bce-embedding，需要先登录
!huggingface-cli download --resume-download maidalun1020/bce-embedding-base_v1 
!huggingface-cli download --resume-download maidalun1020/bce-reranker-base_v1

修改茴香豆本地配置文件config.ini

在这里插入图片描述

构建新的知识库

为了适配我们本地的任务，这里我们需要构建一下本地的知识库数据以及相应的good_questions.json和bad_question.json

首先将目前手上有的关于实验服务器使用文档和之前整理的一些关服务器使用过程中的问题文档汇总到/root/huixiandou/knownledge 目录下，便于后续构建相关知识库
这里bad_question.json依旧使用茴香豆的默认文档，然后重新构建的新的good_question.json

import os

os.chdir('/root/huixiandou/HuixiangDou')

#--repo_dir /root/huixiandou/knownledge 指定知识库路径
#--good_questions /root/huixiandou/sample/good_questions.json 指定good_questions
#bad_quetions使用默认
#--sample /root/huixiandou/test.json 指定测试问题

!python -m huixiangdou.service.feature_store --repo_dir /root/huixiandou/knownledge \
    --good_questions /root/huixiandou/sample/good_questions.json --sample /root/huixiandou/test.json

在这里插入图片描述

配置web端服务

%pip install gradio==4.25.0 redis==5.0.3 flask==3.0.2 lark_oapi==1.2.4   #安装gradio环境

!python -m tests.test_query_gradio   #启动服务

在这里插入图片描述

zwplus

关注

28
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
InternLM 实战营笔记-3-RAG助手

RAG(检索式增强生成)，其核心思想是在LLM回答问题或者生成文本时会先从事前构建好的知识库(文献资料)中检索相关信息，然后基于相关问题和检索到的信息来回答问题或者文本，从而提高预测质量。如果说大模型在之前回答用户问题是在参与一场闭卷考试，那现在通过RAG技术，大模型回答用户的问题就是在参加一场开卷考试，RAG技术中构建的知识库也就相当于开卷考试时带进考场的资料。
复制链接

扫一扫