【RAG-十-检索增强技术之重排序rerank】

最新推荐文章于 2025-05-12 17:30:24 发布

y_dd

最新推荐文章于 2025-05-12 17:30:24 发布

阅读量1.2k

点赞数 29

分类专栏： rag 人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/zishuijing_dd/article/details/147759296

版权

人工智能同时被 2 个专栏收录

61 篇文章

订阅专栏

rag

11 篇文章

订阅专栏

RAG 检索增强技术之重排序（Rerank）

在构建高性能的 RAG（Retrieval-Augmented Generation）系统时，检索阶段的结果质量直接影响生成答案的准确性与完整性。虽然传统的语义向量检索（如 FAISS、ANN）和关键词检索（如 BM25）能快速召回候选文档，但它们在排序上的表现仍有局限。

为了解决这一问题，重排序（Rerank） 技术被引入到 RAG 系统中，作为“检索后增强”的重要手段。其核心思想是：

在初步召回 Top-K 文档的基础上，使用更强大的模型对这些候选文档进行精细排序，以选出最相关的内容。

一、什么是重排序（Rerank）？

✅ 基本概念

重排序是指：

在初步检索得到一个候选文档列表之后，
使用更强的排序模型（通常是 Cross-Encoder 架构）对这些文档重新打分并排序。

Cross-Encoder 是一种比双塔结构（Bi-Encoder）更精确的语义匹配方式，它对用户输入和候选文档相关性进行打分，而不是生成embeding的方式来排序。

二、为什么需要重排序？

问题	解释
初级检索排序不准	向量检索基于 Embedding 相似度，无法捕捉复杂的语义关系
上下文不一致	检索结果可能包含语义相近但内容无关的文档
排序不够精细	需要更高精度的排序模型来区分细微差异

✅ 重排序可以显著提升最终用于生成的答案的质量和相关性。

三、常用重排序模型

以下是一些常用的 Cross-Encoder 类型的重排序模型：

模型名称	提供方	特点
BGE-Reranker-Large	蚂蚁集团	支持多语言，性能强，适合中文场景
T5-Ranker	HuggingFace	基于 T5 的生成式排序器
Sentence-BERT rerankers	UKP Lab	支持多种语言，易于部署

BGE-Reranker-Large 因其在中文任务中的优异表现，已成为当前主流选择之一。

四、重排序流程图

五、实现示例（伪代码）

下面是一个使用 Python 和 LangChain 框架结合 BGE-Reranker-Large 模型的重排序实现思路。

💻 示例代码（伪代码 + 实现逻辑）

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain.vectorstores import FAISS
from langchain.embeddings import QwenEmbeddings
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Step 1: 加载预训练的 Cross-Encoder 模型（如 bge-reranker-large）
class BGEReranker:
    def __init__(self, model_name="BAAI/bge-reranker-large"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForSequenceClassification.from_pretrained(model_name)

    def score(self, query, documents):
        scores = []
        for doc in documents:
            inputs = self.tokenizer(query, doc, return_tensors='pt', truncation=True, padding=True)
            with torch.no_grad():
                logits = self.model(**inputs).logits
            scores.append(logits.item())
        return scores

# Step 2: 初始化压缩器（Compressor）
compressor = CrossEncoderReranker(reranker=BGEReranker(), top_n=3)

# Step 3: 初始化基础检索器（如 FAISS）
vectorstore = FAISS.load_local("faiss_index", QwenEmbeddings())
base_retriever = vectorstore.as_retriever(search_kwargs={"k": 10})

# Step 4: 构建带重排序功能的检索器
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=base_retriever
)

# Step 5: 查询并获取重排序后的结果
query = "量子计算的基本原理是什么？"
compressed_docs = compression_retriever.get_relevant_documents(query)

for i, doc in enumerate(compressed_docs):
    print(f"{i+1}. {doc.page_content}")

六、优点与适用场景

✅ 优点

优势	描述
提高排序准确性	Cross-Encoder 捕捉更深层次的语义交互
提升回答质量	返回最相关的上下文，增强生成效果
可插拔性强	可与任意检索器组合使用，灵活部署