LLM之RAG理论（八）| 提高RAG性能的9种技术

最新推荐文章于 2024-08-10 08:30:00 发布

wshzd

最新推荐文章于 2024-08-10 08:30:00 发布

阅读量1.8k

点赞数 23

分类专栏： RAG 笔记文章标签：人工智能

本文链接：https://blog.csdn.net/wshzd/article/details/135850436

版权

笔记同时被 2 个专栏收录

180 篇文章 114 订阅

订阅专栏

RAG

41 篇文章 53 订阅

订阅专栏

本文介绍了2023年NLP领域中RAG技术的发展，重点讲述了9种提升RAG性能的方法，包括数据质量提升、索引结构优化、元数据应用、问题对齐、混合检索和查询改进等，以提高个性化解决方案的质量和效率。

摘要由CSDN通过智能技术生成

2023年是迄今为止NLP发展最快的一年。这年，ChatGPT与许多其他大型语言模型层出不穷，包括开源的和闭源的。

与此同时，各个行业对个性化和全面运营的RAG的需求也在飙升，每个客户都渴望拥有自己的量身定制的解决方案。

本文将介绍9中提高RAG技术的方法：

1 — 🗃️ 提高索引数据的质量

由于我们索引的数据决定了RAG答案的质量，因此在建立索引之前，需要对数据做很多预处理操作来保证数据质量非常关键。

下面是数据清洗的一些Tips：

清除特殊字符、奇怪的编码、不必要的HTML标记来消除文本噪声（比如使用regex）；
找出与主要主题无关的文档异常值并将其删除（可以通过实现一些主题提取、降维技术和数据可视化来实现这一点）；
使用相似性度量删除冗余文档

2 — 🛠️ 优化索引结构

在构建RAG时，块大小是一个关键参数，它决定了我们从矢量存储中检索的文档的长度。小的块大小可能会导致文档错过一些关键信息，而大的块大小则会引入不相关的噪声。

如何有效平衡块大小？

可以通过在测试集上运行评估和计算度量来找到最佳块大小。LlamaIndex有一些有趣的功能可以做到这一点，可以参考[2]：

3 — 🏷️ 添加元数据

将元数据与索引向量结合有助于提高搜索相关性。以下是元数据有用的一些场景：

如果搜索项目并且以最近为标准，则可以对日期元数据进行排序；
如果你搜索科学论文，并且事先知道你要寻找的信息总是位于特定的部分，比如实验部分，你可以将文章部分添加为每个区块的元数据，并对其进行过滤，以仅匹配实验。

4 — ↔️ 将输入查询与文档对齐

LLM和RAG功能强大，因为它们提供了用自然语言表达查询的灵活性，从而降低了数据探索和更复杂任务的进入门槛。

然而，有时，用户以几个单词或短句的形式制定的输入查询与索引文档之间会出现错位，索引文档通常以长句甚至段落的形式编写。

让我们通过一个例子来理解这一点。

以下是一段关于发动机的内容（来源：ChatGPT）

The motor engine stands as an engineering marvel, propelling countless vehicles and machinery with its intricate design and mechanical prowess. At its core, a motor engine converts fuel into mechanical energy through a precisely orchestrated series

of combustion events. This process involves the synchronized movement of pistons, a crankshaft, and a complex network of valves, all carefully calibrated to optimize efficiency and power output. Modern motor engines come in various types, such as internal combustion engines and electric motors, each with its

unique set of advantages and applications. The relentless pursuit of innovation continues to enhance motor engine technology, pushing the boundaries of performance, fuel efficiency, and environmental sustainability. Whether powering a car on the open road or driving industrial machinery, the motor engine

remains a driving force behind the dynamic movement of our modern world.

如果你提出一个简单的查询，比如“Can you tell how the motor engine works in a nutshell?”并计算其与段落的余弦相似性，你就会得到0.72的值。

还不错，但我们能做得更好吗？

要做到这一点，我们将不再通过嵌入来索引段落，而是通过嵌入它所回答的问题来索引段落。

让我们来考虑这段话所回答的三个问题。

What is the fundamental function of a motor engine?”,
How does a motor engine convert fuel into mechanical energy?”,
What are some key components involved in the operation of a motor engine, and how do they contribute to its efficiency?”

如果我们计算它们与输入查询的相似性，我们分别获得这些值。

0.864

0.841

0.845

这些值越高，表示输入查询与问题匹配得越精确。

用他们回答的问题对块进行索引会稍微改变问题，但有助于解决对齐问题并提高搜索相关性：我们不优化与文档的相似性，而是优化与潜在问题的相似性。