人大：基于LLM的文本分块优化RAG效果

最新推荐文章于 2025-04-23 15:46:44 发布

大模型任我行

最新推荐文章于 2025-04-23 15:46:44 发布

阅读量1.5k

点赞数 27

分类专栏：大模型-RAG 文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/143163363

版权

大模型-RAG 专栏收录该内容

53 篇文章

订阅专栏

在这里插入图片描述

📖标题：Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception
🌐来源：arXiv, 2410.12788

摘要

🔸检索增强生成（RAG）虽然是大型语言模型（LLM）的可行补充，但往往忽视了其管道中文本分块的关键方面，这会影响知识密集型任务的质量。
🔸本文介绍了元分块的概念，它指的是句子和段落之间的粒度，由段落中具有深层语言逻辑联系的句子集合组成。为了实现元分块，我们设计了两种基于LLM的策略：边缘采样分块和困惑分块。前者采用LLM对连续句子是否需要分段进行二元分类，根据边缘采样获得的概率差做出决策。后者通过分析困惑度分布的特征来精确识别文本块边界。此外，考虑到不同文本的固有复杂性，我们提出了一种将元分块与动态合并相结合的策略，以实现细粒度和粗粒度文本分块之间的平衡。
🔸在11个数据集上进行的实验表明，元分块可以更有效地提高基于RAG的单跳和多跳问答的性能。例如，在2WikiMultihopQA数据集上，它比相似分块高1.32倍，而只消耗45.8%的时间。我们的代码在https://github.com/IAAR-Shanghai/Meta-Chunking.

🛎️文章简介

🔸研究问题：在检索增强生成（RAG）系统中，传统文本分块方法在捕捉句子间逻辑关系细微变化方面的不足，如何实现细粒度和粗粒度文本分块之间的有效平衡？
🔸主要贡献：论文提出了一种名为Meta-Chunking的创新文本分块技术，通过动态组合策略实现了更高效的文本分块，显著提升了检索质量和效率。

📝重点思路

🔺相关工作

🔸文本分割：旨在将文本内容分解为其组成部分，为后续高级任务如信息检索和文本摘要提供支持，主要技术是文档主题建模，包括基于概率和基于聚类等方法。
🔸RAG文本分块：无效的分块策略可能会导致上下文不完整或过多的不相关信息，从而损害QA系统的性能，除了句子或段落等典型的粒度级别

🔺论文方案

🔸Meta-Chunking方法：利用LLM的能力，将文档灵活地分割成逻辑上连贯、独立的块，包括边缘采样和困惑度（PPL）两种思路。
🔸核心原则：允许块大小的可变性，以更有效地捕捉和保持内容的逻辑完整性。
🔸边缘采样：首先将其分割成句子集合，然后利用LLM对连续句子是否需要分块进行二元分类，根据边际采样得到的概率差进行决策。该方法通过动态调整粒度，确保每个分块包含完整的独立表达，从而避免分块过程中的逻辑断裂。
🔸困惑度：通过分析PPL分布特征来精确识别文本块边界，真正影响不同LLM的PPL计算差异的是KL散度，KL散度越大，两个分布之间的差异就越大。此外，高PPL表明LLM对真实内容存在认知幻觉，这些部分不应该被分割。

🔎分析总结

🔸Meta-Chunking的优越性：实验结果表明，Meta-Chunking策略在性能上显著优于传统的基于规则和语义的分块方法。
🔸效率与成本优势：与当前的LLM方法相比，Meta-Chunking在效率和成本节约方面表现更优，特别是在处理时间和计算成本上。
🔸动态组合策略的有效性：通过动态组合策略，Meta-Chunking在处理不同文本时实现了细粒度和粗粒度分块之间的有效平衡。
🔸小模型与大模型的对比：小模型在处理效率上有优势，但在跨语言适应性方面存在局限。