LangChain:与RAG相关的模块

Sun_Sherry

已于 2024-08-13 11:08:11 修改

阅读量249

点赞数 3

分类专栏： # LangChain GPT 文章标签： langchain

于 2024-08-12 17:42:17 首次发布

本文链接：https://blog.csdn.net/yeshang_lady/article/details/141123283

版权

GPT 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

LangChain

5 篇文章 0 订阅

订阅专栏

写在最前

本篇博客主要整理LangChain中与RAG(Retrieval-Augmented Generation，即检索增强生成)相关的模块。这一部分主要集中在langchain_community模块中，这部分内容不会详细介绍，原因主要有以下几点：

LangChain中数据处理与RAG相关的工具相对而言比较粗糙；
这一类模块集成了太多第三方工具，各个工具都有一些独特的用法，无法一一详细介绍；
LlamaIndex在数据处理上的工具会更丰富，后续可能考虑使用该工具；

1. documents相关模块

LangChain中的langchain_community包的document_loaders、document_compressors和document_transformers模块封装了很多种类文件的加载和解析工具。

1.1 document_loaders模块

document_loaders负责加载外部数据源中的数据(比如PDF、Word、Html页面)，将其转换为内部可处理的文档格式。该模块下的类主要包括以下两大类别：

Loader读取器: Loader类都继承自BaseLoader类(该类的定义在langchain_core.document_loaders中)，这一大类别一般可以直接接收文件的路径来读取文件内容。该类主要包括以下几种方法：alazy_load、aload、lazy_load、load及load_and_split(将文件加载并切分成块)方法。
Parser解析器:Parser继承BaseBlobParser(该类的定义在langchain_core.document_loaders中)，这一个类别可以直接解析二进制数据Blob。该类主要包括以下几种方法：lazy_parse和parse。

这里仅以pdf文件的读取为例进行说明(代码运行结果这里省略)：

from langchain_community.document_loaders import PDFMinerLoader
from langchain_community.document_loaders.parsers import PDFMinerParser
from langchain_core.documents.base import Blob
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_split=RecursiveCharacterTextSplitter(
    chunk_size=1000,
)
loader = PDFMinerLoader("file.pdf")
pages=loader.load_and_split(text_splitter=text_split)
print(pages[0])
print('===============')
blob=Blob.from_path("file.pdf")
parser=PDFMinerParser().parse(blob)
print(parser[0])

关于上述代码，有以下几点需要说明：

这些文件读取器、解析器的背后都依赖其它专门的python包，比如上述代码中用到的PDFMinerLoader, 其背后使用的包为pdfminer.six，该包需要先行安装；langchain_community中的类主要是对其它工具的封装，这些类的运行都依赖其它python包或工具，下文将不再对此做详细介绍。
上述代码中Blob包的引用方法与当前LangChain官方案例中的引用方法不同(官方案例中的引用方法为from langchain_core.documents import Blob)，原因暂时不明；
load_and_split方法允许添加自定义的文件切割配置，需要安装langchain_text_splitters包；

1.2 document_compressors模块

从名称上看，该模块好像是对documents进行压缩，但从各个类的源代码中可以发现，该模块的主要完成对documents的重排。该模块中的类都继承自BaseDocumentCompressor类，该类有两个基本的方法：compress_documents和acompress_documents。
目前document_compressors模块中的类主要有以下几种：DashScopeRerank、FlashrankRerank及JinaRerank等。不同的类方法会有些差异。这里仅以阿里的DashScopeRerank为例进行说明，具体如下

from langchain_community.document_compressors import DashScopeRerank
from dotenv import load_dotenv,find_dotenv
from langchain_core.documents import Document
_=load_dotenv(find_dotenv())
docs=[
    Document(page_content="今天天气很好"),
    Document(page_content="今天星期一"),
    Document(page_content="今天将会有新人加入我们"),
]
new_docs=DashScopeRerank().compress_documents(docs,query="今天是周几")
print(new_docs)

其运行结果如下：

[Document(metadata={'relevance_score': 0.5411219497495873}, page_content='今天星期一'), 
Document(metadata={'relevance_score': 0.2763095655416217}, page_content='今天将会有新人加入我们'),
Document(metadata={'relevance_score': 0.1740313260790499}, page_content='今天天气很好')]

1.3 document_transformers模块

顾名思义，模块document_transformers中的类可以对文档进行转换，比如将文档转换成embedding向量，从文档中抽取问题对等。该模块中的类都继承虚拟类BaseDocumentTransforme，这里仅以EmbeddingsRedundantFilter为例进行说明(结果将展示出具体的embedding向量，这里不展示)：

from langchain_community.document_transformers import EmbeddingsRedundantFilter
from langchain_core.documents import Document
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
model_name = "BAAI/bge-large-en"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
hf = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)
docs=[
    Document(page_content="早上好"),
    Document(page_content="你好"),
    Document(page_content="hello"),
]
new_docs=EmbeddingsRedundantFilter(
    embeddings=hf).transform_documents(docs)
print(new_docs)

2. embeddings模块

LangChain中的langchain_community.embedddings模块中集成了当下比较流行的embedding模型。在document_transformers模块中已经展示了embedding模型的使用，这里就不再赘述了。

3. retrievers模块

LangChain中的langchain_community.retrievers模块可以实现信息检索功能，即依据查询返回最相关的文档。langchain_community.retrievers模块中的类都继承自langchain_core.retrievers.BaseRetriever类，而BaseRetriever类实现了Runnable接口，因此该模块中的类可以集成到LCEL中。
这里仅以SVMRetriever类为例来说明其用法。具体如下：

from langchain_community.retrievers.svm import SVMRetriever
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
model_name = "BAAI/bge-large-en"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
hf = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)
docs=["What is the capital of France?",
      "today is a good day",
      "this code is running well",
      "this code is not working"]
svm_retriever = SVMRetriever.from_texts(embeddings=hf,
                             texts=docs,k=2)
rel_docs=svm_retriever.invoke("the result of code")
print(rel_docs)

其结果如下：

[Document(page_content='this code is not working'), 
Document(page_content='this code is running well')]

4. vectorstores模块

LangChain中的langchain_community.vectorstores模块主要负责保存embedding向量及向量检索。这里以clickhouse数据库为例简单展示其用法(要先在本地搭建clickhouse数据库，具体搭建过程这里省略)：

from langchain_community.vectorstores import Clickhouse, ClickhouseSettings
from langchain_openai import OpenAIEmbeddings
from langchain_core.documents import Document
from dotenv import load_dotenv,find_dotenv
_=load_dotenv(find_dotenv())

settings = ClickhouseSettings(table="vectorstore",
                              host="localhost",
                              port=8123)
vector_store = Clickhouse(embedding=OpenAIEmbeddings(), config=settings)

docs=[Document(page_content="What is the capital of France?"),
      Document(page_content="today is a good day"),
      Document(page_content="this code is running well"),
      Document(page_content="this code is not working")]
vector_store.add_documents(docs,ids=[1,2,3,4])
results = vector_store.similarity_search(query="code status",k=2)
for doc in results:
    print(f"* {doc.page_content} [{doc.metadata}]")

其结果如下：

* this code is running well [{'_dummy': 0}]
* this code is not working [{'_dummy': 0}]

Sun_Sherry

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
LangChain:与RAG相关的模块

本篇博客主要整理LangChain中与RAG(Retrieval-Augmented Generation，即检索增强生成)相关的模块。
复制链接

扫一扫

专栏目录