【RAG检索增强生成】LlamaIndex与Qwen2的高效检索增强生成实践

最新推荐文章于 2024-08-20 00:18:14 发布

寻道AI小兵

最新推荐文章于 2024-08-20 00:18:14 发布

阅读量1.7k

点赞数 115

分类专栏： AI大模型Qwen系列探索实践 AI大模型RAG应用探索实践文章标签：人工智能 AIGC 语言模型 AI编程

本文链接：https://blog.csdn.net/xiaobing259/article/details/140593905

版权

AI大模型Qwen系列探索实践同时被 2 个专栏收录

14 篇文章 15 订阅

订阅专栏

AI大模型RAG应用探索实践

11 篇文章 5 订阅

订阅专栏

系列篇章💥

No.	文章
1	【Qwen部署实战】探索Qwen-7B-Chat：阿里云大型语言模型的对话实践
2	【Qwen2部署实战】Qwen2初体验：用Transformers打造智能聊天机器人
3	【Qwen2部署实战】探索Qwen2-7B：通过FastApi框架实现API的部署与调用
4	【Qwen2部署实战】Ollama上的Qwen2-7B：一键部署大型语言模型指南
5	【Qwen2部署实战】llama.cpp：一键部署高效运行Qwen2-7B模型
6	【Qwen2部署实战】部署高效AI模型：使用vLLM进行Qwen2-7B模型推理
7	【AI大模型Agent探索】Qwen-Agent：基于Qwen的LLM应用开发框架
8	【AI大模型Agent探索】深入探索实践 Qwen-Agent 的 Function Calling
9	【AI大模型Agent探索】Qwen-Agent之RAG智能助手实践
10	【RAG检索增强生成】LlamaIndex与Qwen2的高效检索增强生成实践

引言

在当今人工智能的快速发展中，大模型技术以其卓越的数据处理和语言理解能力，成为智能化进程的强大推动力。特别是检索增强生成（RAG）技术，它巧妙地融合了检索系统的高效性和生成模型的创造性，为智能问答系统的发展开辟了新天地。本文将详细阐述如何结合LlamaIndex和Qwen2，快速部署RAG技术，实现与外部数据的深度集成和智能交互。

一、概述

本文将深入探讨如何将 LlamaIndex 与 Qwen2 结合，实现高效的 RAG 技术，为 AI 大模型赋予检索外部数据并生成回答的能力。

1、LlamaIndex 简介

LlamaIndex 是一种创新的索引构建工具，专为 AI 模型设计，能够高效地处理和索引化文档、网页等数据。它为 Qwen2 等大模型提供了访问和利用大量知识库的能力，极大地扩展了模型的应用场景。

2、技术优势

RAG 技术的核心优势在于其结合了检索系统的快速响应和生成模型的创造性。通过 LlamaIndex，Qwen2 不仅能够快速检索相关信息，还能够基于检索结果生成准确、丰富的回答。

3、实践部署重点

本文将重点介绍从环境准备到模型设置，再到索引构建和 RAG 测试的全过程。我们将通过具体的代码示例和步骤说明，指导读者如何部署自己的 RAG 系统，实现智能问答功能。

二、模型下载安装

1、下载语言模型

首先，我们需要下载Qwen2-7B-Instruct模型，以支持多语言对话能力。以下是使用snapshot_download函数进行模型下载的示例代码：

import torch
from modelscope import snapshot_download

# snapshot_download函数用于下载模型
model_dir = snapshot_download(
    'qwen/Qwen2-7B-Instruct',  # 模型名称
    cache_dir='/root/autodl-tmp',  # 缓存目录
    revision='master'  # 版本号
)

下载完成如下：
在这里插入图片描述

2、下载嵌入模型

同样，我们也需要下载bge-base-zh-v1.5模型，以支持中文文档的检索。下载过程与语言模型类似：

import torch
from modelscope import snapshot_download

# snapshot_download函数用于下载模型
model_dir = snapshot_download(
    'AI-ModelScope/bge-base-zh-v1.5',  # 模型名称
    cache_dir='/root/autodl-tmp',  # 缓存目录
    revision='master'  # 版本号
)

3、安装 LlamaIndex

通过pip命令安装LlamaIndex及其相关扩展包，为RAG技术的实践部署打下基础：

pip install llama-index
pip install llama-index-llms-huggingface
pip install llama-index-readers-web

pip install llama-index-core
pip install llama-index-llms-openai
pip install llama-index-llms-replicate
pip install llama-index-embeddings-huggingface

三、模型设置

1、导入依赖库

在设置模型之前，需要导入所有必要的依赖库：

import torch
from llama_index.core import Settings
from llama_index.core.node_parser import SentenceSplitter
from llama_index.llms.huggingface import HuggingFaceLLM
from llama_index.embeddings.huggingface import HuggingFaceEmbedding

2、设置提示模版

定义生成提示模板，以增强模型的回答生成能力：

# Set prompt template for generation (optional)
from llama_index.core import PromptTemplate

def completion_to_prompt(completion):
   return f"<|im_start|>system\n<|im_end|>\n<|im_start|>user\n{completion}<|im_end|>\n<|im_start|>assistant\n"

def messages_to_prompt(messages):
    prompt = ""
    for message in messages:
        if message.role == "system":
            prompt += f"<|im_start|>system\n{message.content}<|im_end|>\n"
        elif message.role == "user":
            prompt += f"<|im_start|>user\n{message.content}<|im_end|>\n"
        elif message.role == "assistant":
            prompt += f"<|im_start|>assistant\n{message.content}<|im_end|>\n"

    if not prompt.startswith("<|im_start|>system"):
        prompt = "<|im_start|>system\n" + prompt

    prompt = prompt + "<|im_start|>assistant\n"

    return prompt

3、加载语言模型

配置Qwen2作为语言模型，并设定生成配置，包括上下文窗口大小和新令牌数量等参数：


# Set Qwen2 as the language model and set generation config
Settings.llm = HuggingFaceLLM(
    model_name="/root/autodl-tmp/qwen/Qwen2-7B-Instruct",
    tokenizer_name="/root/autodl-tmp/qwen/Qwen2-7B-Instruct",
    #model_name="Qwen/Qwen2-7B-Instruct",
    #tokenizer_name="Qwen/Qwen2-7B-Instruct",
    context_window=30000,
    max_new_tokens=2000,
    generate_kwargs={"temperature": 0.7, "top_k": 50, "top_p": 0.95},
    messages_to_prompt=messages_to_prompt,
    completion_to_prompt=completion_to_prompt,
    device_map="auto",
)

加载成功如下：
在这里插入图片描述

4、加载嵌入模型

选择适当的嵌入模型，以支持文档的向量化处理：

# Set embedding model
Settings.embed_model = HuggingFaceEmbedding(
    model_name = "/root/autodl-tmp/AI-ModelScope/bge-base-zh-v1.5"
)

5、设置文件分块大小

定义文件分块大小，以优化检索效率：

# Set the size of the text chunk for retrieval
Settings.transformations = [SentenceSplitter(chunk_size=1024)]

四、构建索引

现在我们可以从文档或网站构建索引。

1、文档内容索引构建

以下代码片段展示了如何为本地名为’document’的文件夹中的文件（无论是PDF格式还是TXT格式）构建索引。
在文件夹中放入：谜语问答游戏.pdf

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
documents = SimpleDirectoryReader("./document").load_data()
index = VectorStoreIndex.from_documents(
    documents,
    embed_model=Settings.embed_model,
    transformations=Settings.transformations
)

2、网站内容索引构建

以下代码片段展示了如何为一系列网站的内容构建索引。

from llama_index.readers.web import SimpleWebPageReader
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader

documents = SimpleWebPageReader(html_to_text=True).load_data(
    ["web_address_1","web_address_2",...]
)
index = VectorStoreIndex.from_documents(
    documents,
    embed_model=Settings.embed_model,
    transformations=Settings.transformations
)

五、检索增强（RAG）测试

现在您可以输入查询，Qwen2 将基于索引文档的内容提供答案。

1、第一轮提问：

query_engine = index.as_query_engine()
your_query = "你是谁？"
print(query_engine.query(your_query).response)

输出：

根据给定的上下文信息，无法直接回答“你是谁？”这个问题，因为它要求提供身份或自我介绍的信息，而这在提供的内容中并未提及。所以，基于给定的信息集，这个问题的答案不能被确定。

2、第二轮提问：

query_engine = index.as_query_engine()
your_query = "什么是属于你的，但其他人比你使用它更多？ "
print(query_engine.query(your_query).response)

输出：

你的名字。

3、第三轮提问：

query_engine = index.as_query_engine()
your_query = "路的左边有一座绿房子，路的右边有一座红房子。 那么，白宫在哪里？ "
print(query_engine.query(your_query).response)

输出：

在美国华盛顿。

六、索引保存加载

1、索引保存到本地

数据默认存储在内存中。要保留到磁盘（在）：./storage （会自动在同级目录创建文件夹storage ）

index.storage_context.persist()

执行后保存文件如下：
在这里插入图片描述

2、从磁盘重新加载索引

from llama_index.core import StorageContext, load_index_from_storage

# rebuild storage context
storage_context = StorageContext.from_defaults(persist_dir="./storage")
# load index
index = load_index_from_storage(storage_context)

3、加载后重新测试

query_engine = index.as_query_engine()
your_query = "没有翅膀我也能飞翔。 没有眼睛我也能哭。 每当我走的时候，黑暗就跟着我。 我是什么？  "
print(query_engine.query(your_query).response)

输出：

一朵云。

结语

通过本文的实践部署，我们成功地将 LlamaIndex 与 Qwen2 结合，实现了高效的 RAG 技术。这不仅提升了智能问答系统的性能，也为开发者提供了一个强大的工具，以构建更加智能和响应迅速的 AI 应用。随着技术的不断发展，我们期待看到更多创新的 RAG 应用出现，推动 AI 领域的进步。

😎 作者介绍：我是寻道AI小兵，资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索。
📖 技术交流：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，加入技术交流群，开启编程探索之旅。
💘精心准备📚500本编程经典书籍、💎AI专业教程，以及高效AI工具。等你加入，与我们一同成长，共铸辉煌未来。
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我，让我们携手同行AI的探索之旅，一起开启智能时代的大门！

寻道AI小兵

关注

115
点赞
踩
86

收藏

觉得还不错? 一键收藏
89
评论
【RAG检索增强生成】LlamaIndex与Qwen2的高效检索增强生成实践

在当今人工智能的快速发展中，大模型技术以其卓越的数据处理和语言理解能力，成为智能化进程的强大推动力。特别是检索增强生成（RAG）技术，它巧妙地融合了检索系统的高效性和生成模型的创造性，为智能问答系统的发展开辟了新天地。本文将详细阐述如何结合LlamaIndex和Qwen2，快速部署RAG技术，实现与外部数据的深度集成和智能交互。
复制链接

扫一扫

专栏目录