【DataWhale-LLM】四、如何构建RAG应用

最新推荐文章于 2024-04-30 19:24:04 发布

HaMiHaMi Ha

最新推荐文章于 2024-04-30 19:24:04 发布

阅读量375

点赞数 3

文章标签： langchain nlp python

本文链接：https://blog.csdn.net/weixin_43568307/article/details/138171893

版权

检索增强生成（RAG）是一个模型架构，它整合了知识库中庞大的检索信息，以此为基础指导大语言模型生成更准确的答案

一、加载向量数据库
二、创建LLM
三、构建检索问答链
参考文献

一、加载向量数据库

在上一章中，我们使用Embedding API搭建了向量数据库，现在，我们把它加载进来。

from langchain_community.embeddings import DashScopeEmbeddings
embeddings = DashScopeEmbeddings(
    model="text-embedding-v1", dashscope_api_key="your-dashscope-api-key"
)  # 可以参考第一篇文章

# 定义持久化路径
persist_directory = '../../data_base/vector_db/chroma'

from langchain.vectorstores.chroma import Chroma

vectordb = Chroma.from_documents(
    documents=split_docs[:20], # 为了速度，只选择前 20 个切分的 doc 进行生成；使用千帆时因QPS限制，建议选择前 5 个doc
    embedding=embedding,
    persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
)

使用相似性检索测试一下：

question = "什么是prompt engineering?"
docs = vectordb.similarity_search(question,k=3)
print(f"检索到的内容数：{len(docs)}")

for i, doc in enumerate(docs):
    print(f"检索到的第{i}个内容: \n {doc.page_content}", end="\n-----------------------------------------------------\n")

二、创建LLM

这个第一篇文章中也有，调用阿里的大语言模型：

import os
os.environ["DASHSCOPE_API_KEY"] = DASHSCOPE_API_KEY
from langchain_community.llms import Tongyi
Tongyi().invoke("LangChain是什么?")
llm = Tongyi()

三、构建检索问答链

from langchain.prompts import PromptTemplate

template = """使用以下上下文来回答最后的问题。如果你不知道答案，就说你不知道，不要试图编造答
案。最多使用三句话。尽量使答案简明扼要。总是在回答的最后说“谢谢你的提问！”。
{context}
问题: {question}
"""

QA_CHAIN_PROMPT = PromptTemplate(input_variables=["context","question"],
                                 template=template)

再创建一个基于模板的检索链：

from langchain.chains import RetrievalQA

qa_chain = RetrievalQA.from_chain_type(llm,
                                       retriever=vectordb.as_retriever(),
                                       return_source_documents=True,
                                       chain_type_kwargs={"prompt":QA_CHAIN_PROMPT})

创建检索 QA 链的方法 RetrievalQA.from_chain_type() 有如下参数：

llm：指定使用的 LLM
指定 chain type : RetrievalQA.from_chain_type(chain_type=“map_reduce”)，也可以利用load_qa_chain()方法指定chain type。
自定义 prompt ：通过在RetrievalQA.from_chain_type()方法中，指定chain_type_kwargs参数，而该参数：chain_type_kwargs = {“prompt”: PROMPT}
返回源文档：通过RetrievalQA.from_chain_type()方法中指定：return_source_documents=True参数；也可以使用RetrievalQAWithSourceChain()方法，返回源文档的引用（坐标或者叫主键、索引）

参考文献

datawhale-llm课程地址

HaMiHaMi Ha

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
【DataWhale-LLM】四、如何构建RAG应用

自定义 prompt ：通过在RetrievalQA.from_chain_type()方法中，指定chain_type_kwargs参数，而该参数：chain_type_kwargs = {“prompt”: PROMPT}指定 chain type : RetrievalQA.from_chain_type(chain_type=“map_reduce”)，也可以利用load_qa_chain()方法指定chain type。llm：指定使用的 LLM。
复制链接

扫一扫