“茴香豆“：搭建你的 RAG 智能助理

饮酒醉沧桑

已于 2024-05-01 19:55:27 修改

阅读量971

点赞数 26

文章标签：算法人工智能 tensorflow nlp 自然语言处理

于 2024-05-01 19:52:50 首次发布

本文链接：https://blog.csdn.net/weixin_73902638/article/details/138376246

版权

一、RAG 概述

RAG（Retrieval Augmented Generation）技术，通过检索与用户输入相关的信息片段，并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。

RAG 能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。本次课程选用的茴香豆应用，就应用了 RAG 技术，可以快速、高效的搭建自己的知识领域助手。

RAG 效果比对

如图所示，由于茴香豆是一款比较新的应用， InternLM2-Chat-7B 训练数据库中并没有收录到它的相关信息。左图中关于 huixiangdou 的 3 轮问答均未给出准确的答案。右图未对 InternLM2-Chat-7B 进行任何增训的情况下，通过 RAG 技术实现的新增知识问答。

二、关于RAG的拓展知识

1.RAG全流程

这张图展示的是一个结合了语言模型（LLM）和检索增强生成（RAG）过程的问答系统的工作流程。以下是图中所示全流程的逐步解释：

用户：流程的起点是用户向系统提出一个问题。
输入：输入阶段捕获用户的查询。
查询：提供的示例查询是关于评估与OpenAI的CEO，Sam Altman以及权力动态相关的一个假设场景的问题。
索引：在这个阶段，包含与查询相关信息的文档被处理。它们被分解成块或向量，向量是数据的数值表示，适合机器处理。这是创建可搜索索引的一部分过程。
嵌入：将向量转换为嵌入向量，这些是高维空间的表示，可以捕捉单词、短语或文档的语义含义。
检索：系统使用嵌入向量从索引中检索出可能包含帮助回答用户问题的信息的相关文档。
相关文档：这些文档是检索步骤的输出，被认为对生成对用户查询的回答有用。例如，有三段来自与CEO相关的文章的文本。
生成：语言模型（LLM）使用来自相关文档的信息来生成对用户查询的回应。
结合上下文和提示：在这个阶段，系统结合原始查询的上下文与检索文档的提示来制定一个全面的答案。
输出（无RAG）：系统提供了一个不使用RAG系统的答案，可能因为没有支持特定信息的检索文档而显得不够信息充实或相关。
输出（使用RAG）：这是系统的最终输出，它使用了RAG过程。它包含了检索文档的信息，使得回答更加相关，可能也更详细，提供了一个更好的信息支持的用户问题答案。
答案：系统向用户展示答案的最后一个步骤。

“使用RAG”与“无RAG”输出的对比，旨在展示系统在使用外部文档检索来增强其生成响应时与仅依赖于语言模型知识时产生的答案的质量和相关性之间的差异。RAG系统有助于产生基于最新和具体信息的回应，可能使其更准确、更丰富。

2.RAG三种范式

这张图说明了检索增强生成（RAG）的三种不同范式：Naive RAG、Advanced RAG 和 Modular RAG。这些范式指的是结合了信息检索和文本生成技术的不同策略来提高问答系统的性能。下面是对每种范式的详细解释：

Naive RAG：
1. 用户、**查询**和**文档**：与上一张图中的用户、查询和文档的概念一致，用户提出问题，系统需要对这个问题进行处理。
2. 索引：系统将文档索引化，以便能够高效检索到相关信息。
3. 检索：系统根据查询检索相关文档。
4. 提示：使用检索到的信息和原始查询，语言模型（这里指的是“Frozen LLM”，即固化的、不再进行学习更新的语言模型）生成答案的提示。
5. 输出：最终，系统产生回答。

这个“Naive RAG”是最基础的形式，它简单地将检索到的信息和问题提示输入到语言模型中，没有额外的优化或处理步骤。

Advanced RAG：
与“Naive RAG”相比，增加了一些优化步骤：
1. Pre-Retrieval（检索前）：对查询进行路由、重排和扩展，以改善检索效果。
2. Post-Retrieval（检索后）：包括对检索到的文档重新排名（Rerank）、摘要（Summary）和融合（Fusion），这些步骤可以优化和集中检索到的信息，使其对生成回答更有帮助。
3. 提示和输出：步骤与“Naive RAG”相似，但因为在检索前后有了优化，所以生成的输出可能更精确和信息丰富。

“Advanced RAG”通过检索前后的优化，提高了问题回答的质量。

Modular RAG：
1. 这种范式展示了一种更为复杂的系统设计，可以灵活地组合不同的模块来完成任务：
2. 模块（Modules）：定义了多个模块，如搜索（Search）、预测（Predict）、检索（Retrieve）、重写（Rewrite）、阅读（Read）、演示（Demonstrate）、记忆（Memory）和融合（Fusion）等。
3. 模式（Patterns）：这些模块可以按照不同的模式组合来处理不同的任务，如“Retrieve-Rewrite-Read”用于“Advanced RAG”，“Retrieve-Read”用于“Naive RAG”，以及其他更复杂的模式，如“ITER-RETR-GEN”。

“Modular RAG”通过模块化设计，使系统可以根据任务的特定需求来定制信息处理流程，提高了灵活性和适应性。

总体来说，这三种RAG范式代表了从简单到复杂的不同层次的问题回答系统设计，每一层次都通过增加更多的处理步骤来改善系统的性能和输出的质量。

3.RAG常见优化方法

这张图片展示的是检索增强生成（RAG）系统在处理查询时的四个优化策略，它们分别是嵌入优化、索引优化、查询优化和上下文整理。下面是每个术语的作用和功能解释：

嵌入优化（Embedding Optimization）：
1. 作用：提升系统在将文本转换为嵌入向量时的效果，这些向量是信息检索和语义分析的基础。
2. 功能：
  - 提高文本向量的区分度：确保语义相近的文本得到相近的嵌入表示，而不同的内容则有明显区分的嵌入向量。
  - 索引压缩：减少所需的存储空间，同时尽量保持嵌入向量的质量，以便快速检索。
索引优化（Indexing Optimization）：
1. 作用：提高系统对文档建立索引的效率和效果，便于快速准确地检索到相关文档。
2. 功能：
  - 高效生成索引块（Chunk）：将大量文档分割成合适大小的数据块，以便快速检索。
  - 优化检索速度：改进索引结构，使得检索操作更加迅速。
查询优化（Query Optimization）：
1. 作用：优化用户查询的处理，以提高检索相关文档的准确性。
2. 功能：
  - 查询扩展：在不改变原始意图的情况下，丰富查询的内容，帮助系统更好地理解用户意图并提升检索的准确率。
  - 多义项处理：针对可能有多重含义的查询，确保理解上下文，以便检索到最相关的信息。
上下文整理（Context Curation）：
1. 作用：在检索到相关信息后，进一步优化信息，以便更好地辅助生成回答。
2. 功能：
  - 重新排名（rerank）：在初步检索的基础上，重新评估和排序文档的相关性，以确保最相关的信息能够用于回答生成。
  - 上下文选择/处理：从检索到的文档中精选出最有助于回答问题的部分，可能包括摘要、合成或过滤不相关内容。

总的来说，这些优化策略都是为了提高系统处理查询和生成答案时的效率和质量，通过优化文档的表示、索引、查询处理和信息选择，确保用户得到准确、相关且信息丰富的回答。

这张图片描述了三种不同的检索策略：迭代检索、递归检索和自适应检索。它们都是信息检索方法，通常用于加强语言模型在回答问题时的准确性和深度。下面是每个术语的作用和功能解释：

迭代检索（Iterative Retrieval）：
1. 作用：通过多轮的检索来逐步提炼和精确信息。
2. 功能：将检索和回答过程分成多步，每一步都使用前一步的回答来改进查询，然后再次检索，这样逐渐累积获得更准确的信息。
递归检索（Recursive Retrieval）：
1. 作用：采用链式思维（Chain-of-Thought）的方式，通过多级递归查询来处理复杂的问题。
2. 功能：在每一步的查询中，系统都会建立在之前检索到的信息基础上，形成一个思维链条，这样能够逐步深入地处理更加复杂或需要逻辑推理的查询。
自适应检索（Adaptive Retrieval）：
1. 作用：根据问题的具体情况灵活地调整检索策略。
2. 功能：
  - 使用Flare和Self-RAG等技术，这可能是特定的算法或系统名称，来提高检索的灵活性和效果。
  - 允许语言模型（LLMs）根据检索到的信息自我调整查询策略，使得生成的回答能更加符合问题的要求和上下文。

总的来说，这些策略都旨在改进检索过程，帮助语言模型更加准确地回答问题。通过迭代和递归的方法可以处理复杂的多步骤问题，而自适应检索则可以根据每个独特的查询情况来优化检索策略。这些方法可以显著提高问题回答系统的性能，尤其是在处理需要深度理解和逻辑推理的复杂问题时。

三、基础作业

在 `InternLM Studio` 上部署茴香豆技术助手

根据教程文档搭建 茴香豆技术助手，针对问题"茴香豆怎么部署到微信群？"进行提问
完成不少于 400 字的笔记 + 截图

1.环境配置

进入开发机后，从官方环境复制运行 InternLM 的基础环境，命名为 InternLM2_Huixiangdou，在命令行模式下运行：

#创建一个名为InternLM2_Huixiangdou的conda环境
studio-conda -o internlm-base -t InternLM2_Huixiangdou

#运行 conda 命令，激活 InternLM2_Huixiangdou python 虚拟环境
conda activate InternLM2_Huixiangdou

2.下载基础文件

复制茴香豆所需模型文件，为了减少下载和避免 HuggingFace 登录问题，所有作业和教程涉及的模型都已经存放在 Intern Studio 开发机共享文件中。本教程选用 InternLM2-Chat-7B 作为基础模型。

# 创建模型文件夹
cd /root && mkdir models

# 复制BCE模型
ln -s /root/share/new_models/maidalun1020/bce-embedding-base_v1 /root/models/bce-embedding-base_v1
ln -s /root/share/new_models/maidalun1020/bce-reranker-base_v1 /root/models/bce-reranker-base_v1

# 复制大模型参数（下面的模型，根据作业进度和任务进行**选择一个**就行）
ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b /root/models/internlm2-chat-7b

2.3 下载安装茴香豆

安装茴香豆运行所需依赖。

# 安装 python 依赖
# pip install -r requirements.txt

pip install protobuf==4.25.3 accelerate==0.28.0 aiohttp==3.9.3 auto-gptq==0.7.1 bcembedding==0.1.3 beautifulsoup4==4.8.2 einops==0.7.0 faiss-gpu==1.7.2 langchain==0.1.14 loguru==0.7.2 lxml_html_clean==0.1.0 openai==1.16.1 openpyxl==3.1.2 pandas==2.2.1 pydantic==2.6.4 pymupdf==1.24.1 python-docx==1.1.0 pytoml==0.1.21 readability-lxml==0.8.1 redis==5.0.3 requests==2.31.0 scikit-learn==1.4.1.post1 sentence_transformers==2.2.2 textract==1.6.5 tiktoken==0.6.0 transformers==4.39.3 transformers_stream_generator==0.0.5 unstructured==0.11.2

## 因为 Intern Studio 不支持对系统文件的永久修改，在 Intern Studio 安装部署的同学不建议安装 Word 依赖，后续的操作和作业不会涉及 Word 解析。
## 想要自己尝试解析 Word 文件的同学，uncomment 掉下面这行，安装解析 .doc .docx 必需的依赖
# apt update && apt -y install python-dev python libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig libpulse-dev

从茴香豆官方仓库下载茴香豆。

cd /root
# 克隆代码仓库
git clone https://github.com/internlm/huixiangdou && cd huixiangdou
git checkout 63f2eef0e6e4ac113b05ede0316b193948a42cda

3.使用茴香豆搭建 RAG 助手

3.1修改配置文件

命令行输入下面的命令，修改用于向量数据库和词嵌入的模型

sed -i '6s#.*#embedding_model_path = "/root/models/bce-embedding-base_v1"#' /root/huixiangdou/config.ini

用于检索的重排序模型

sed -i '7s#.*#reranker_model_path = "/root/models/bce-reranker-base_v1"#' /root/huixiangdou/config.ini

和本次选用的大模型

sed -i '29s#.*#local_llm_path = "/root/models/internlm2-chat-7b"#' /root/huixiangdou/config.ini

修改好的配置文件应该如下图所示：

3.2创建知识库

本示例中，使用 InternLM 的 Huixiangdou 文档作为新增知识数据检索来源，在不重新训练的情况下，打造一个 Huixiangdou 技术问答助手。

首先，下载 Huixiangdou 语料：

cd /root/huixiangdou && mkdir repodir

git clone https://github.com/internlm/huixiangdou --depth=1 repodir/huixiangdou

提取知识库特征，创建向量数据库。数据库向量化的过程应用到了 LangChain 的相关模块，默认嵌入和重排序模型调用的网易 BCE 双语模型，如果没有在 config.ini 文件中指定本地模型路径，茴香豆将自动从 HuggingFace 拉取默认模型。

除了语料知识的向量数据库，茴香豆建立接受和拒答两个向量数据库，用来在检索的过程中更加精确的判断提问的相关性，这两个数据库的来源分别是：

接受问题列表，希望茴香豆助手回答的示例问题
- 存储在 huixiangdou/resource/good_questions.json 中
拒绝问题列表，希望茴香豆助手拒答的示例问题
- 存储在 huixiangdou/resource/bad_questions.json 中
- 其中多为技术无关的主题或闲聊
- 如："nihui 是谁", "具体在哪些位置进行修改？", "你是谁？", "1+1"

运行下面的命令，增加茴香豆相关的问题到接受问题示例中：

cd /root/huixiangdou
mv resource/good_questions.json resource/good_questions_bk.json

echo '[
    "mmpose中怎么调用mmyolo接口",
    "mmpose实现姿态估计后怎么实现行为识别",
    "mmpose执行提取关键点命令不是分为两步吗，一步是目标检测，另一步是关键点提取，我现在目标检测这部分的代码是demo/topdown_demo_with_mmdet.py demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py checkpoints/faster_rcnn_r50_fpn_1x_coco_20200130-047c8118.pth   现在我想把这个mmdet的checkpoints换位yolo的，那么应该怎么操作",
    "在mmdetection中，如何同时加载两个数据集，两个dataloader",
    "如何将mmdetection2.28.2的retinanet配置文件改为单尺度的呢？",
    "1.MMPose_Tutorial.ipynb、inferencer_demo.py、image_demo.py、bottomup_demo.py、body3d_pose_lifter_demo.py这几个文件和topdown_demo_with_mmdet.py的区别是什么，\n2.我如果要使用mmdet是不是就只能使用topdown_demo_with_mmdet.py文件，",
    "mmpose 测试 map 一直是 0 怎么办？",
    "如何使用mmpose检测人体关键点？",
    "我使用的数据集是labelme标注的，我想知道mmpose的数据集都是什么样式的，全都是单目标的数据集标注，还是里边也有多目标然后进行标注",
    "如何生成openmmpose的c++推理脚本",
    "mmpose",
    "mmpose的目标检测阶段调用的模型，一定要是demo文件夹下的文件吗，有没有其他路径下的文件",
    "mmpose可以实现行为识别吗，如果要实现的话应该怎么做",
    "我在mmyolo的v0.6.0 (15/8/2023)更新日志里看到了他新增了支持基于 MMPose 的 YOLOX-Pose，我现在是不是只需要在mmpose/project/yolox-Pose内做出一些设置就可以，换掉demo/mmdetection_cfg/faster_rcnn_r50_fpn_coco.py 改用mmyolo来进行目标检测了",
    "mac m1从源码安装的mmpose是x86_64的",
    "想请教一下mmpose有没有提供可以读取外接摄像头，做3d姿态并达到实时的项目呀？",
    "huixiangdou 是什么？",
    "使用科研仪器需要注意什么？",
    "huixiangdou 是什么？",
    "茴香豆 是什么？",
    "茴香豆 能部署到微信吗？",
    "茴香豆 怎么应用到飞书",
    "茴香豆 能部署到微信群吗？",
    "茴香豆 怎么应用到飞书群",
    "huixiangdou 能部署到微信吗？",
    "huixiangdou 怎么应用到飞书",
    "huixiangdou 能部署到微信群吗？",
    "huixiangdou 怎么应用到飞书群",
    "huixiangdou",
    "茴香豆",
    "茴香豆 有哪些应用场景",
    "huixiangdou 有什么用",
    "huixiangdou 的优势有哪些？",
    "茴香豆 已经应用的场景",
    "huixiangdou 已经应用的场景",
    "huixiangdou 怎么安装",
    "茴香豆 怎么安装",
    "茴香豆 最新版本是什么",
    "茴香豆 支持哪些大模型",
    "茴香豆 支持哪些通讯软件",
    "config.ini 文件怎么配置",
    "remote_llm_model 可以填哪些模型?"
]' > /root/huixiangdou/resource/good_questions.json

再创建一个测试用的问询列表，用来测试拒答流程是否起效：

cd /root/huixiangdou

echo '[
"huixiangdou 是什么？",
"你好，介绍下自己"
]' > ./test_queries.json

在确定好语料来源后，运行下面的命令，创建 RAG 检索过程中使用的向量数据库：

# 创建向量数据库存储目录
cd /root/huixiangdou && mkdir workdir 

# 分别向量化知识语料、接受问题和拒绝问题中后保存到 workdir
python3 -m huixiangdou.service.feature_store --sample ./test_queries.json

向量数据库的创建需要等待一小段时间，过程约占用 1.6G 显存。完成后，Huixiangdou 相关的新增知识就以向量数据库的形式存储在 workdir 文件夹下。检索过程中，茴香豆会将输入问题与两个列表中的问题在向量空间进行相似性比较，判断该问题是否应该回答，避免群聊过程中的问答泛滥。确定的回答的问题会利用基础模型提取关键词，在知识库中检索 top K 相似的 chunk，综合问题和检索到的 chunk 生成答案。

4.运行茴香豆知识助手

我们已经提取了知识库特征，并创建了对应的向量数据库。现在，让我们来测试一下效果：

命令行运行：

# 填入问题
sed -i '74s/.*/    queries = ["huixiangdou 是什么？", "茴香豆怎么部署到微信群", "今天天气怎么样？"]/' /root/huixiangdou/huixiangdou/main.py

# 运行茴香豆
cd /root/huixiangdou/
python3 -m huixiangdou.main --standalone

RAG 技术的优势就是非参数化的模型调优，这里使用的仍然是基础模型 InternLM2-Chat-7B，没有任何额外数据的训练。面对同样的问题，我们的茴香豆技术助理能够根据我们提供的数据库生成准确的答案：

4.1利用 Gradio 搭建网页 Demo

让我们用 Gradio 搭建一个自己的网页对话 Demo，来看看效果。

1.首先，安装 Gradio 依赖组件：

pip install gradio==4.25.0 redis==5.0.3 flask==3.0.2 lark_oapi==1.2.4

2.运行脚本，启动茴香豆对话 Demo 服务：

cd /root/huixiangdou
python3 -m tests.test_query_gradio

3.在本地打开命令行工具：

Windows 使用快捷键组合 Windows + R（Windows 即开始菜单键）打开指令界面，并输入命令 Powershell，按下回车键
Mac 用户直接找到并打开终端
Ubuntu 用户使用快捷键组合 ctrl + alt + t

在命令行中输入如下命令，命令行会提示输入密码：

ssh -CNg -L 7860:127.0.0.1:7860 root@ssh.intern-ai.org.cn -p <你的端口号>

4.运行效果

饮酒醉沧桑

关注

26
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
“茴香豆“：搭建你的 RAG 智能助理

RAG（Retrieval Augmented Generation）技术，通过检索与用户输入相关的信息片段，并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。RAG 能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。本次课程选用的茴香豆应用，就应用了 RAG 技术，可以快速、高效的搭建自己的知识领域助手。
复制链接

扫一扫