香港理工大学：多级知识增强LLM的RAG表现

大模型任我行

于 2024-08-29 13:00:00 发布

阅读量544

点赞数 10

分类专栏：大模型-RAG 文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141638132

版权

大模型-RAG 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

在这里插入图片描述

📖标题：Multi-Level Querying using A Knowledge Pyramid
🌐来源：arXiv, 2407.21276

摘要

本文讨论现有检索增强生成（Retrieval-Augmented Generation，RAG）方法需要改进精度的问题，这些方法主要关注提高召回率。我们在RAG框架中提出了一个多层知识金字塔方法，以实现更好的精度和召回率平衡。知识金字塔由三个层次组成：本体、知识图谱（KGs）和基于块的原始文本。我们采用跨层增强技术实现全面的知识覆盖和本体模式和实例的动态更新。为了确保紧凑性，我们利用跨层过滤方法对KGs中的知识进行凝结。我们的方法名为PolyRAG，采用瀑布模型进行检索，从金字塔顶部开始，逐层向下进行，直到获得自信的答案。我们引入了两个领域特定知识检索的基准，一个在学术领域，另一个在金融领域。通过超越19个SOTA方法的全面实验验证了方法的有效性。令人鼓舞的是，所提出的方法已经增强了GPT-4，通过将其性能从0.1636提高到0.8109，提供了395％的F1增益。

🛎️文章简介

🔸研究问题：在现有的检索增强生成（RAG）方法中，如何平衡“精确度”和“召回率”，特别是在领域特定问题中。
🔸主要贡献：论文提出了一种多层次的知识金字塔结构和定制的查询策略，以实现精确度和召回率的更好平衡。

📝重点思路

🔺相关工作

🔸领域大模型：LLM的一个子集，比通用LLM更专业的理解和生成特定专业领域的文本，但领域微调会降低通用性、导致灾难性遗忘。
🔸RAG：通过结合上下文学习的检索知识来增强LLM的生成能力，但过多的噪音和冗长的上下文会对推理性能产生负面影响。
🔸知识增强：将LLM与附加知识库集成以促进情境学习，图谱是一种形式但具有挑战性。

🔺论文方案

🔸知识基础：构建一个三层知识金字塔，包括本体层、知识图谱层和原始文本层。
🔸知识补全：识别存在于较低层但高层不存在的重要概念和关系，合并到更高层中以增强知识的完成度。
🔸知识凝练：利用高层的结构化知识消除低层的冗余信息，以自上而下的方法提高金字塔的紧凑性。
🔸多级查询：采用自顶向下的查询方式，如果在更高层找到答案则返回结果，否则继续查询下一层。

🔎分析总结

🔸PolyRAG方法在不同组别、不同骨干和两个基准测试中均超越了其他最先进的方法。
🔸PolyRAG在精确度和召回率之间实现了更好的平衡，特别是在精确度上的提升更为显著。
🔸知识补全与知识凝练，显著提高了问题回答的结构化数据使用率。
🔸本体层作为知识库在提高精度方面发挥着突出的作用，KG层对提高精确率或召回率表现出平衡的影响。

💡个人观点

论文提出了一种多层次的知识金字塔结构和定制的查询策略，以实现精确度和召回率的更好平衡。

附录

在这里插入图片描述

大模型任我行

关注

10
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
香港理工大学：多级知识增强LLM的RAG表现

在现有的检索增强生成（RAG）方法中，如何平衡“精确度”和“召回率”，特别是在领域特定问题中？论文提出了一种多层次的知识金字塔结构和定制的查询策略，以实现精确度和召回率的更好平衡。
复制链接

扫一扫