摘要:
本文讨论了传统检索增强生成(RAG)系统在处理复杂、相互关联问题时的局限性,并介绍了GraphRAG和LightRAG 作为更先进的替代方案,这些方案利用知识图谱来提高答案的全面性。
关键要点:
- 传统RAG系统无法有效处理需要理解相互关联概念的问题。
- 基于图谱的RAG系统,如GraphRAG 和LightRAG,通过利用知识图谱提供了解决方案
- GraphRAG提供了一种更为有序的 RAG 方法,超越了基本系统的简单性。
- LightRAG被呈现为一个更简单高效的 GraphRAG 替代方案。
- 文章强调需要一种更先进的方法,以应对当今世界复杂的信息需求。
- 此外,还提到几篇与生成式AI和知识图谱相关的文章
正文:
对GraphRAG 系统的需求
在当今信息需求复杂的世界中,传统的 RAG(检索增强生成)系统面临着重大限制。这些系统只是检索相关的文本块并将其提供给语言模型,难以为需要理解相互关联的概念和系统效应的问题提供全面的答案。让我们通过实际示例来探讨为什么我们需要更复杂的方法。
全球性问题的挑战
考虑一个看似简单的问题:“电动汽车的广泛采用对现代城市有何影响?这个查询乍一看似乎很简单,但它包含了一个复杂的相互关联的因素网络。其影响涵盖多个领域 — 从环境变化到基础设施需求,从经济转变到社会转型。
传统的 RAG 系统通过检索有关电动汽车、城市基础设施和环境影响的单个块来实现这一点。然而,它错过了关键的联系。例如,当它找到有关 EV 充电站的信息时,它可能不会将其与电网基础设施的相关影响联系起来。当它检索有关减少排放的数据时,它可能无法将其与以前污染严重地区的城市健康指标或财产价值的变化联系起来。
证明需要基于图的理解的真实示例
让我们来看看四个复杂的查询,它们突出了为什么我们需要基于图形的方法:
- 环境影响链查询:“可再生能源的采用如何影响全球经济体系?
传统的 RAG 检索有关太阳能电池板成本和可再生能源行业创造就业机会的信息。但是,它很难捕捉级联效果:
-
减少对化石燃料的需求如何影响国际贸易关系
-
能源依赖型行业的转型
-
全球投资模式的转变
-
能源生产国和消费国之间地缘政治关系的变化
- 医疗保健转型查询:“AI 在医疗保健领域的采用有哪些系统性影响?
简单的数据块检索可能会找到有关 AI 诊断工具或自动患者安排的信息。但它错过了关键的互连:
-
AI 诊断如何影响医学教育和培训要求
-
对保险定价和承保范围政策的连锁反应
-
患者数据隐私框架的变化
-
不同社会经济背景下对医疗保健可及性的影响
为什么传统 RAG 不足
传统的 RAG 系统在处理此类复杂查询时面临根本限制:
块隔离:当系统分别检索有关电动汽车电池技术和城市空气质量的块时,它很难建立改进的电池技术、增加的电动汽车采用和随后的空气质量改善之间的因果关系。
上下文丢失:有关充电基础设施的信息与有关城市电网容量的数据隔离存在。该系统无法自然地连接增加的充电需求如何使电网现代化成为必要。
缺失综合信息:虽然单个块可能包含有关减少排放和公共卫生的信息,但系统很难将其综合成对电动汽车采用如何产生一连串环境和健康益处的连贯理解。
Graph 的优势
基于图的 RAG 系统通过维护概念之间的丰富关系网络来解决这些限制。在我们的 EV 示例中,图谱结构自然地捕获了:
-
电动汽车的采用与充电基础设施需求相关
-
基础设施发展与电网需求相关联
-
电网现代化与可再生能源并网息息相关
-
可再生能源与环境效益相联系
这种相互关联的结构使系统能够遵循推理链并理解间接关系。当被问及电动汽车对城市的影响时,它可以遍历图表以发现直接影响(如减少排放)和间接后果(如城市规划优先级的变化或基于充电站可用性的零售位置偏好的变化)。
图谱结构永久保留了这些关系,使系统能够快速浏览复杂的信息 Web 并为复杂的查询提供全面、上下文丰富的响应。
深入了解 GraphRAG:从文档中构建分层知识
作者用Claude 创建的图像:由 Graph RAG Ingestion 创建的分层社区的概念图
GraphRAG 架构:一种系统化的知识组织方法
GraphRAG 引入了一个复杂的管道,用于将原始文档转换为有组织的分层知识结构。让我们探索这个过程的每个阶段,了解它如何系统地构建丰富的知识表示。
从文档到可管理的数据块:基础
GraphRAG 管道中的第一个关键决策涉及确定如何将源文档分解为可处理的块。这不仅仅是任意拆分,而是在处理效率和信息保留之间仔细平衡。
考虑一份关于可再生能源技术的复杂文档。如果我们将块做得太大(比如 2400 个令牌),我们可能会保留更多的上下文,但可能会压倒语言模型提取精确信息的能力。另一方面,较小的块(大约 600 个令牌)允许更准确的提取,但需要更多的处理步骤。
该论文清楚地演示了这种权衡:与 2400 个令牌的块相比,使用 600 个令牌的块提取的实体引用几乎是两倍。把它想象成分解一本教科书——较小的部分允许更详细的笔记,但我们需要确保我们不会失去更广泛的叙述。
提取知识:从 Chunk 到 Element 实例
一旦我们有了可管理的块,GraphRAG 就会采用复杂的基于 LLM 的提取过程。此阶段类似于让专家读者识别和编目每个部分的关键信息。
让我们通过一个具体的例子来了解一下它的实际效果:
给定一个关于太阳能的片段:
"Modern solar panels have achieved efficiency rates of 25%. Recent advances in perovskite materials
have revolutionized manufacturing costs, while simultaneously improving durability. These
developments have made solar energy increasingly competitive with traditional power sources."
LLM 摘录:
Entities:实体:
-
太阳能电池板 (类型:技术) 描述:用于能源生产的光伏设备
-
钙钛矿材料 (类型:材料) 描述:提高太阳能电池板效率的先进材料
-
制造成本(类型:经济因素)描述:太阳能技术的生产成本
Relationships:关系:
-
太阳能电池板→钙钛矿材料描述:提高效率并降低成本
-
制造成本→太阳能竞争力描述:降低成本推动市场采用
构建连贯性:从实例到元素摘要
此阶段解决了一个关键挑战:将同一概念的多次提及合并为一个连贯的摘要。这就像对一个主题做零散的笔记并写一个全面的概述。
例如,不同的块可能会在各种上下文中提到太阳能电池板:
-
一个讨论效率改进
-
另一个侧重于安装要求
-
三分之一用于支付维护成本
GraphRAG 使用 LLM 支持的摘要来创建统一的描述,以捕获所有这些方面,同时保持清晰度和连贯性。
创建结构:从摘要到社区
这就是 GraphRAG 真正闪耀的地方——它使用莱顿算法将这一系列相互关联的信息转化为有组织的社区。将此视为自动识别我们知识手册中的自然章节和子章节。
该流程将创建一个分层结构:
-
0 级:广泛的主题(例如,“可再生能源技术”)
-
第 1 级:更具体的子社区(例如,“太阳能技术”、“风能”、“储能”)
-
更进一步:越来越精细的组织
最后阶段:社区摘要
最后一步是为每个社区创建全面的摘要,仔细平衡细节和范围。对于较小的社区,这可能包括所有相关信息。对于较大的元素,GraphRAG 会根据以下因素智能地选择和总结最重要的元素:
-
节点突出度(中心概念的程度)
-
关系强度
-
信息相关性
这将创建丰富的多级知识表示形式,在回答查询时可以有效地遍历该知识表示形式。
LightRAG:一种更有效的知识组织方法 - 超越社区结构:LightRAG 架构
GraphRAG 构建分层社区,而 LightRAG 则采用完全不同的方法来组织和检索知识。让我们探索一下 LightRAG 的架构如何创建一个更精简、更高效的系统。
核心架构:构建具有直接连接的知识图谱
将 GraphRAG 的社区结构想象成一个由部分、子部分和单个书籍组成的图书馆。虽然这种组织是有意义的,但查找跨学科信息需要访问多个部分。相比之下,LightRAG 创建了一个更类似于交叉引用信息网络的东西,其中相关概念直接连接,无论它们的“类别”如何。
让我们看看 LightRAG 如何构建这个知识结构:
1. 基于图形的文本索引
当 LightRAG 处理文档时,它首先会创建一个丰富的实体和关系网络。让我们以可再生能源为例:
请看一段话:
"Advanced battery technology has enabled longer ranges in electric vehicles, making them more attractive to consumers. This increased adoption has significantly reduced urban air pollution in major cities."
LightRAG 在一次操作中提取实体及其关系:
Entities:实体:
-
电池技术 (技术组件)
-
电动车 (产品)
-
城市空气质量(环境因素)
-
消费者采用率(市场因素)
Relationships:关系:
-
电动汽车→电池技术 描述:“实现更远续航能力” 关键主题:[“技术进步”, “性能改进”]
-
电动汽车→城市空气质量 描述:“通过零排放减少城市空气污染” 关键主题:[“环境影响”, “城市可持续性”]
-
电动汽车→消费者采用率 描述:“性能提高推动了采用率的提高” 关键主题:[“市场动态”, “消费者行为”]
作者使用 Calude 创建的图:创建知识图谱
2. LLM 分析:创建智能信息接入点
Claude 创建的图像:向元素添加键值对
LightRAG 不是将信息分组到社区中,而是通过其分析系统创建高效的访问点:
对于每个实体:
-
直接索引键(实体名称)
-
包含关键信息的汇总值
对于每个关系:
-
多个索引键捕获不同的方面
-
封装关系的上下文和含义的值
这种双级索引使 LightRAG 能够通过特定实体和更广泛的主题快速访问信息。
3. 去重:保持干净,无冗余的知识
图片由作者用Claude 创建:重复数据删除过程之后
LightRAG 的重复数据删除流程可确保合并相似或相同的概念,从而创建更简洁、更高效的知识结构。这一点尤其重要,因为:
-
它减少了存储开销
-
防止信息碎片化
-
提高检索效率
-
确保响应的一致性
直接连接的力量
与 GraphRAG 基于社区的方法不同,LightRAG 的直接实体关系结构具有以下几个优势:
-
更快的信息访问 LightRAG 可以通过其索引实体和关系直接访问相关信息,而不是遍历社区层次结构。
-
更灵活的知识导航 系统可以有机地遵循关系路径,而不受社区边界的限制。
-
更好地处理跨域问题 当查询跨越多个域时,LightRAG 可以通过遵循直接关系而不是在不同社区之间跳转来有效地收集相关信息。
LightRAG 的核心:双重检索系统
使 LightRAG 真正具有创新性的是它的双检索系统——可以将其视为同时具有显微镜和望远镜来检查信息。当出现问题时,例如“监管变化如何影响公司重组”,LightRAG 会通过两个互补的视角进行处理:图片由作者与用Claude 创建:Dual Retrieval System Of Light RAG
显微镜:低水平检索
该系统以非凡的精度专注于特定细节:
-
标识查询中提到的确切实体(“法规变更”、“公司重组”)
-
遵循这些实体之间的直接关系
-
探索图形结构中的直接邻居
-
收集有关特定方面的具体事实信息
望远镜:高级检索
同时,该系统捕捉了更大的图景:
-
识别更广泛的主题和模式(“合规性趋势”、“业务转型”)
-
确定可能跨多个域的总体关系
-
捕获间接连接,添加有价值的上下文
-
提供战略性和整体理解
集成:整合
当 LightRAG 将这两种观点结合起来时,奇迹就会发生。让我们看看这如何与我们的 legal 查询一起工作:
- 初始查询处理:
-
提取特定实体和更广泛的主题
-
总共使用少于 100 个令牌
-
为双路径检索做准备
- 同步检索:
-
低级系统查找特定的监管要求和重组程序
-
高级系统捕捉行业趋势和更广泛的影响
-
这两个过程都发生在一次高效的 API 调用中
- 结果综合:
-
将详细的调查结果与情境理解相结合
-
创建全面的响应,在特异性与更广泛的见解之间取得平衡
-
在不同级别的信息中保持连贯性
实际示例
让我们看看这与我们之前关于电动汽车和城市环境的问题是如何工作的:
LightRAG 可以立即:
-
直接访问 EV 相关实体
-
遵循与基础架构要求的关系
-
追踪与环境影响的联系
-
通过关联关系确定经济影响
所有这一切都无需遍历社区结构或重建信息层次结构。
检索方法之战:深入了解 GraphRAG 与 LightRAG
作者用Claude 创建的图片:LightRAG 与 GraphRAG 检索
让我们通过检查一个真实场景来探讨这两个系统如何以不同的方式处理信息检索,从而使它们的架构差异栩栩如生。我们将使用论文中介绍的法律数据集评估来了解为什么 LightRAG 的效率明显更高。
搭建舞台:法律数据集挑战赛
假设您的任务是构建一个系统来回答大量文档中的复杂法律问题。论文评估中使用的 Legal 数据集正是这一挑战:
-
94 文档
-
超过 500 万个法律文本令牌
-
有关公司法律、法规和治理的复杂、相互关联的主题
GraphRAG 基于社区的方法
GraphRAG 像组织一家大型律师事务所一样应对这一挑战。它创建了专门的部门(社区),每个小组都专注于相关的法律主题。以下是它的工作原理:
处理 Legal 数据集时,GraphRAG:
-
总共创建了 1,399 个社区
-
使用 610 个 2 级社区进行主动检索
-
每个社区维护大约 1,000 个摘要信息令牌
让我们通过一个真实的查询来了解这一点:“最近的监管变化如何影响公司重组?
GraphRAG 将:
-
并行激活相关的社区报告
-
每个社区(如“公司法规”、“业务重组”、“合规”)都会处理其 1,000 个代币的摘要
-
从每个社区生成答案
-
根据相关性分数组合这些观点
总资源使用量:
-
代币消耗:610,000 个代币(610 个社区× 1,000 个代币)
-
API 调用:每个社区 1 次(尽管是并行处理的)
可以把它想象成咨询 610 位不同的法律专家,每个人在做出最终答案之前都会阅读自己的 1,000 字简报。
LightRAG 的直接访问变革
LightRAG 采取了一种完全不同的方法——更像是一个高度复杂的法律交叉引用系统。使用相同的 Legal 数据集,LightRAG 通过其实体关系结构构建了一个直接连接的信息网络。
对于相同的监管查询,LightRAG 将:
-
确定关键实体:“监管变化”、“公司重组”
-
遵循直接关系路径:
-
法规变更→合规性要求
-
公司结构→合规性要求
-
公司结构→重组流程
效率令人惊叹:
-
Token 使用量:全程少于 100 个 Token
-
API 调用:用于关键字生成和检索的单个调用
这就像拥有一位专业的法律图书馆员,他确切地知道每个相关文档的位置以及它们如何连接,而无需阅读图书馆的整个部分。
现实世界的影响
在处理跨多个法律域的复杂查询时,这种体系结构差异变得更加明显。考虑这样一个问题:“跨境公司合并的环境合规性要求是什么?
GraphRAG 必须:
-
处理所有涉及环境法、公司法和国际法规的社区报告
-
跨社区使用数十万个令牌
-
进行多次 API 调用以处理每个社区视角
LightRAG 改为:
-
直接遵循环境合规性、公司合并和国际法规之间的关系路径
-
使用最少的令牌来访问精确相关的信息
-
在单个 API 调用中完成整个检索过程
结果如何?LightRAG 可以提供同样全面的答案,同时使用的计算资源也大大减少。这种效率不仅仅是速度问题,还在于使复杂的法律知识更易于获取和使用。
结论
在不断发展的信息检索和生成环境中,GraphRAG 和 LightRAG 等基于图形的 RAG 系统标志着范式的转变。通过解决传统 RAG 模型的局限性,它们能够更深入地理解相互关联的概念、系统效应和跨域查询。
GraphRAG 擅长构建分层的、基于社区的结构,使其成为需要详细组织和主题知识集群的场景的理想选择。另一方面,LightRAG 的直接访问、实体关系方法提供了无与伦比的效率,使其成为动态和资源受限环境的强大工具。
展望未来,基于图谱的 RAG 系统与大型语言模型中的前沿进步的集成将重新定义我们与复杂信息交互和理解的方式。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。