LGMGC：一个面向 RAG 的多粒度文本切块框架-CSDN博客

本文链接：https://blog.csdn.net/xx_nm98/article/details/145522269

❝

在开放领域问答（ODQA）中，检索增强生成（RAG）模型表现出色，但文档分块过程的重要性常被忽视。本文提出了一种新的框架：逻辑引导的多粒度分块器（LGMGC），用于将长文档分割成具有不同粒度的上下文化、自包含的分块。实验表明，LGMGC不仅提升了密集段落检索的效果，还在与RAG流程集成时优于现有分块方法。通过结合Logits引导分块和多粒度分块，LGMGC确保了语义连贯性和适应不同类型查询的能力，从而提高了端到端RAG系统的性能。

关键词： 段落分割, 开放领域问答（ODQA）, 检索增强生成（RAG）

一、背景

1. 研究难点

分块的粒度和语义在检索阶段的重要性。
检索到的文档块中缺少上下文信息和过多无关信息会阻碍生成器提取准确的关键信息。

2. 相关工作

递归分块、Small2-Big、语义分块等方法。
利用大型语言模型（LLMs）进行文本分块的研究，如 LumberChunker 和 In-context 检索方法。

二、认识 LGMGC 框架

Logits-Guided Multi-Granular Chunker（LGMGC） 新框架，用于解决文档分块问题。

1. Logits-Guided Chunker：首先，利用预训练的大型语言模型（LLMs）来确定文本中完整语义单元的边界。LLMs 能够建模给定序列条件下后续标记的概率分布，计算每个句子末尾出现 [EOS] 标记的概率，选择概率最高的点作为分界点。公式如下：

其中，是描述性提示，表示句子连接，是句子。通过这种方法，Logits-Guided Chunker能够有效地将文档分割成语义完整且独立的单元，从而提高检索的准确性。

2. Multi-Granular Chunker：其次，引入多粒度分块模块，通过递归地将文本分割成不同粒度的子块来工作。初始文档被分割成较大的父块，然后每个父块被递归地分割成更小的子块。具体来说，父块被分割成 P/2 和 P/4 词的子块，确保一个句子不会被分割到多个块中。在推理过程中，父块的相似度得分由其子块的最大得分决定，选择得分最高的前 k 个父块传递给 LLM 合成器生成响应。这种多粒度分块方法的优势在于它能够在检索和合成过程中提供不同粒度的文本片段，从而更好地适应不同类型的查询，提高整体性能。
3. Logits-Guided Multi-Granular Chunker：最后，结合 Logits-Guided Chunker 和 Multi-Granular Chunker，利用 Logits-Guided Chunker 生成的父块进一步细分为子块。

三、实验设计

为了评估 LGMGC 的影响，进行了以下实验：

1. 数据集：使用 GutenQA 和 LongBench 数据集进行评估。GutenQA 包含“干草堆中的针”类型的问题-答案对，LongBench 包含三个单文档问答任务（NarrativeQA、QasperQA 和 MultifieldQA）。
2. 评价指标：对于检索性能，使用 DCG@k 和 Recall@k 指标；对于端到端的 RAG 性能，使用 F1-score 指标。
3. 基线方法：评估了递归分块、语义分块、段落级分块、LumberChunker、多粒度分块和 Logits-Guided 分块等方法的性能。
4. 实现细节：使用 BGE-Large 和 E5-Large 作为检索器，Llama3-8b-Instruct 和 Llama3-70b-Instruct 作为合成器。最终答案通过贪婪搜索生成，以最小化随机性。

四、实验结果分析

1. 文档检索：

在 GutenQA 数据集上，Logits-Guided Chunker 在各种块大小下均优于递归分块、语义分块和段落级分块，表明其在捕捉上下文连贯性和生成独立、集中的语义块方面的优越性。尽管 LumberChunker 在性能上略胜一筹，但 Logits-Guided Chunker 更为成本效益高且易于部署。多粒度分块也显示出显著的性能提升。最终，LGMGC 在所有块大小下均表现最佳，且在不同块大小下的标准差最小，表明其在实际应用中具有更高的鲁棒性和效率。
2. 开放域问答：在 LongBench 数据集上，LGMGC 在使用最佳块大小时在所有三个数据集上均表现出最高的性能，表明其在下游问答任务中优于现有基线方法。

五、总结

本文提出了一种名为 Logits-Guided Multi-Granular Chunker 的新分块框架，包含两个主要组件：Logits-Guided Chunker 和 多粒度分块模块。实验结果表明，LGMGC 在检索和下游问答任务中均表现出色，具有广泛的应用潜力和实际应用效率。未来的研究可以进一步探索与人类评估更一致的自动评估指标，以更全面地理解分块策略的重要性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述