提升 RAG 效能:使用最佳的嵌入与重排模型

提升 RAG 效能:如何挑选最佳的嵌入与重排模型 [译]

在这里插入图片描述

在打造检索增强型生成(RAG)系统时,检索器扮演着至关重要的角色。市场上有丰富的嵌入模型可供选择,诸如 OpenAI、CohereAI 和开源的句子转换器。同时,也有来自 CohereAI 和句子转换器的多种重新排列工具。

但是,在这么多选择面前,我们该如何挑选出最佳组合,以达到最优的检索效能?我们该怎样判断哪种嵌入模型最契合我们的数据?或者哪一种重新排列工具能够最大限度地优化我们的成果?

本篇博客,我们将借助 LlamaIndex 的 Retrieval Evaluation 工具,迅速识别出最合适的嵌入和重排模型组合。现在,让我们开始探索!

首先,我们来认识一下 Retrieval Evaluation 中的度量标准。

理解检索评估的度量标准:

要评定我们检索系统的效果,我们主要使用两个公认的标准:命中率(Hit Rate)平均倒数排名(MRR)。现在,让我们深入了解它们各自的意义和工作原理。

命中率:

命中率衡量的是在最初检索到的文档中找到正确答案的查询所占的比例。通俗来说,就是我们的系统在前几次尝试中得到正确答案的概率。

平均倒数排名(MRR):

MRR 考察每个查询中,系统找到相关文档的准确性,通过排名来评估。具体而言,就是所有查询中正确答案排名的倒数的平均值。例如,如果第一个相关文档就是搜索结果的第一位,那么倒数排名就是 1;如果是第二位,倒数排名就是 1/2,以此类推。

掌握了这些标准和度量方式后,我们可以正式开始实验了。如果你想跟着做,也可以通过我们的 Google Colab 笔记本[1] 实现同步操作。

配置实验环境

!pip install llama-index sentence-transformers cohere anthropic voyageai protobuf pypdf

创建密钥

openai_api_key = 'YOUR OPENAI API KEY'
cohere_api_key = 'YOUR COHEREAI API KEY'
anthropic_api_key = 'YOUR ANTHROPIC API KEY'
openai.api_key = openai_api_key

下载实验数据

本次实验我们将使用 Llama2 论文作为研究对象。接下来,我们来下载这篇论文。

!wget --user-agent "Mozilla" "https://arxiv.org/pdf/2307.09288.pdf" -O "llama2.pdf"

载入实验数据

现在,我们来加载实验所需的数据。实验将使用论文的前 36 页内容,不包括目录、参考资料和附录部分。

接着,我们将这些内容解析并分割成节点,这些节点代表了我们希望能检索到的数据块。这里,我们设置的数据块大小为 512。

documents = SimpleDirectoryReader(input_files=["llama2.pdf"]).load_data()


node_parser = SimpleNodeParser.from_defaults(chunk_size=512)
nodes = node_parser.get_nodes_from_documents(documents)

创制问题 - 背景对照组:

为了进行有效评估,我们构建了一个包含问题与其背景信息的配对数据集。这一数据集基本上是我们数据库中各个问题及其对应背景信息的集合。为了公正地评估嵌入系统(如 OpenAI/ CohereAI)和重排序系统(CohereAI),我们用 Anthropic LLM 来生成这些问题 - 背景对。

下面我们设置一个模板,用以产生问题 - 背景对。

# Prompt to generate questions
qa_generate_prompt_tmpl = """\
Context information is below.


---------------------
{context_str}
---------------------


Given the context information and not prior knowledge.
generate only questions based on the below query.


You are a Professor. Your task is to setup \
{num_questions_per_chunk} questions for an upcoming \
quiz/examination. The questions should be diverse in nature \
across the document. The questions should not contain options, not start with Q1/ Q2. \
Restrict the questions to the context information provided.\
"""
llm = Anthropic(api_key=anthropic_api_key)
qa_dataset = generate_question_context_pairs(
    nodes, llm=llm, num_questions_per_chunk=2
)

这是一个过滤掉类似 Here are 2 questions based on provided context 句型的功能函数

# function to clean the dataset
def filter_qa_dataset(qa_dataset):
    """
    Filters out queries from the qa_dataset that contain certain phrases and the corresponding
    entries in the relevant_docs, and creates a new EmbeddingQAFinetuneDataset object with
    the filtered data.


    :param qa_dataset: An object that has 'queries', 'corpus', and 'relevant_docs' attributes.
    :return: An EmbeddingQAFinetuneDataset object with the filtered queries, corpus and relevant_docs.
    """


    # Extract keys from queries and relevant_docs that need to be removed
    queries_relevant_docs_keys_to_remove = {
        k for k, v in qa_dataset.queries.items()
        if 'Here are 2' in v or 'Here are two' in v
    }


    # Filter queries and relevant_docs using dictionary comprehensions
    filtered_queries = {
        k: v for k, v in qa_dataset.queries.items()
        if k not in queries_relevant_docs_keys_to_remove
    }
    filtered_relevant_docs = {
        k: v for k, v in qa_dataset.relevant_docs.items()
        if k not in queries_relevant_docs_keys_to_remove
    }


    # Create a new instance of EmbeddingQAFinetuneDataset with the filtered data
    return EmbeddingQAFinetuneDataset(
        queries=filtered_queries,
        corpus=qa_dataset.corpus,
        relevant_docs=filtered_relevant_docs
    )


# filter out pairs with phrases `Here are 2 questions based on provided context`
qa_dataset = filter_qa_dataset(qa_dataset)

定制检索系统:

我们使用嵌入模型与重排序器的结合来确定最优的检索系统。起初,我们建立了一个基础的 VectorIndexRetriever 检索系统。在检索到节点之后,我们又加入了重排序器以便对结果进行进一步的优化。值得一提的是,在这项特定实验中,我们把 similarity_top_k 的设置值定为 10,并且选用重排序器的前 5 名结果。当然,根据您具体实验的需求,这个参数是可以调整的。我们这里显示的是使用 OpenAIEmbedding 的代码,请访问 笔记本[2] 来查阅使用其他嵌入方法的代码。

embed_model = OpenAIEmbedding()
service_context = ServiceContext.from_defaults(llm=None, embed_model = embed_model)
vector_index = VectorStoreIndex(nodes, service_context=service_context)
vector_retriever = VectorIndexRetriever(index=vector_index, similarity_top_k = 10)
class CustomRetriever(BaseRetriever):
    """Custom retriever that performs both Vector search and Knowledge Graph search"""


    def __init__(
        self,
        vector_retriever: VectorIndexRetriever,
    ) -> None:
        """Init params."""


        self._vector_retriever = vector_retriever


    def _retrieve(self, query_bundle: QueryBundle) -> List[NodeWithScore]:
        """Retrieve nodes given query."""


    retrieved_nodes = self._vector_retriever.retrieve(query_bundle)


    if reranker != 'None':
      retrieved_nodes = reranker.postprocess_nodes(retrieved_nodes, query_bundle)
       else:
          retrieved_nodes = retrieved_nodes[:5]


       return retrieved_nodes


    async def _aretrieve(self, query_bundle: QueryBundle) -> List[NodeWithScore]:
        """Asynchronously retrieve nodes given query.


        Implemented by the user.


        """
        return self._retrieve(query_bundle)


    async def aretrieve(self, str_or_query_bundle: QueryType) -> List[NodeWithScore]:
        if isinstance(str_or_query_bundle, str):
            str_or_query_bundle = QueryBundle(str_or_query_bundle)
        return await self._aretrieve(str_or_query_bundle)


custom_retriever = CustomRetriever(vector_retriever)

评价标准:

我们通过计算平均倒数排名(MRR)和命中率来评价检索系统的性能:

retriever_evaluator = RetrieverEvaluator.from_metric_names(
    ["mrr", "hit_rate"], retriever=custom_retriever
)
eval_results = await retriever_evaluator.aevaluate_dataset(qa_dataset)

结果解读:

我们对一系列嵌入模型和重排序器进行了测试。这里有我们选取考虑的一些模型:

嵌入模型包括

  • • OpenAI 嵌入[3]

  • • Voyage 嵌入[4]

  • • CohereAI 嵌入[5](v2.0/ v3.0 版本)

  • • Jina 嵌入[6]

  • • BAAI/bge-large-en[7]

重排序器方面,我们测试了

  • • CohereAI[8]

  • • bge-reranker-base[9]

  • • bge-reranker-large[10]

特别说明的是,这些测试结果给我们提供了对特定数据集和任务效能的深刻见解。然而,根据数据的不同特点、数据集的规模大小以及一些其它因素,比如数据块大小、相似度筛选范围等,真实的结果可能会有所差异。

以下表格根据命中率和平均倒数排名(MRR)这两个指标,展示了评估结果:

分析阐述:

嵌入技术的性能表现:

  • OpenAI:展示了顶级性能,特别是在应用了 **CohereRerank**(命中率高达 0.926966,MRR 为 0.865262)和 **bge-reranker-large**(命中率为 0.910112,MRR 为 0.853993)后,显示出与重排工具的极佳兼容性。

  • bge-large:与重排工具搭配使用后,性能得到了显著提升,尤其是 **CohereRerank** 带来的最佳效果(命中率 0.865169,MRR 0.805618)。

  • llm-embedder:重排带来了巨大的好处,特别是 **CohereRerank**(命中率 0.887640,MRR 0.825843)大幅提升了性能。

  • Cohere:最新版 v3.0 嵌入技术在性能上超越了 v2.0 版,集成了原生的 CohereRerank 后,显著提高了性能指标,拥有 0.876404 的命中率和 0.832584 的 MRR。

  • Voyage:初步表现强劲,并且在使用了 **CohereRerank**(命中率 0.915730,MRR 0.847940)后,性能进一步提升,这表明它对重排技术的响应度很高。

  • JinaAI:虽然起始基础较低,但使用了 **bge-reranker-large**(命中率 0.601124,MRR 0.578652)后取得了明显进步,这说明重排技术大幅提高了其性能。其表现不佳可能是因为嵌入技术被优化为了适应 8K 的上下文长度。

重排技术的影响力:

  • WithoutReranker:为每种嵌入技术提供了性能的基准线。

  • bge-reranker-base:在所有嵌入技术中普遍提高了命中率和 MRR。

  • bge-reranker-large:该重排器常常能为嵌入技术提供最高或几乎最高的 MRR。对于某些嵌入技术而言,其表现可与 **CohereRerank**媲美,甚至有过之而无不及。

  • CohereRerank:一贯地提升所有嵌入技术的表现,往往能提供最好或几乎最好的结果。

重排技术的必要性:

  • • 数据清楚地显示出重排器在优化搜索结果中的重要作用。几乎所有的嵌入技术都通过重排获得了提升,命中率和 MRR 均有所提高。

  • • 特别是 **CohereRerank**,已经证实了它能够将平庸的嵌入技术变身为竞争力强的亮点,正如 JinaAI 的案例所展现的。

综合实力对比:

  • • 考虑到命中率和 MRR 两个指标,**OpenAI + CohereRerank****Voyage + bge-reranker-large** 的组合表现尤为突出。

  • • 然而,无论配合哪种嵌入式系统,**CohereRerank / bge-reranker-large**的重新排序能力都能带来显著的性能提升,因此它们成为了提高搜索品质的优选方案。

总之,如果想要在命中率和 MRR 上都达到最优性能,将 **OpenAI****Voyage** 的嵌入式系统与 **CohereRerank / bge-reranker-large** 结合使用将会是最佳选择。

结语:

在本篇博客文章中,我们展示了利用不同的嵌入式系统和重新排序工具来评价和增强信息检索性能的方法。以下是我们的最终结论:

  • 嵌入式系统: **OpenAI****Voyage**的嵌入式系统,在配合 **CohereRerank / bge-reranker-large** 时,无论是在命中率还是 MRR 上都设定了高标准。

  • 重新排序工具: 重新排序工具,尤其是 **CohereRerank / bge-reranker-large**,其重要性不言而喻。它们在提升多种嵌入式系统的 MRR 中起到了关键作用,彰显了其在优化搜索结果方面的重要性。

  • 基础至关重要: 选择合适的嵌入式系统作为初始搜索工具极其重要;如果基础搜索结果已然不佳,那么即便最优秀的重新排序工具也难以发挥作用。

  • 合作共赢: 要想充分挖掘检索器的潜能,寻找最匹配的嵌入式系统和重新排序工具组合至关重要。这项研究显示,细致的测试和精准的搭配选择是至关重要的。

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值