检索增强生成(RAG)技术在处理具体精确问题上表现优秀,但遇到需要主题性、全局理解的问题时却力不从心。为了解决这个难题,GraphRAG(图谱增强检索生成)应运而生,它融合了图谱(Graph)与RAG的优势,既精准又高效地处理大规模文本数据中的复杂查询。
一、 GraphRAG 简介
GraphRAG 的核心思想分为两个阶段:
- 图谱构建:
- 文档切分为文本块(Chunks)。
- 从文本中抽取实体与关系。
- 使用LLM对实体与关系进行描述并建立知识图谱。
- 通过层次聚类(Hierarchical Leiden)算法划分图谱中的社区,并生成社区摘要。
- 查询处理:
- 根据社区摘要生成中间答案。
- 综合各个社区的答案,给出最终的全局答案。
二、 如何使用 LlamaIndex 实现 GraphRAG
1️⃣ 环境准备:
pip install llama-index graspologic numpy==1.24.4 scipy==1.12.0
2️⃣ 数据加载与预处理:
import pandas as pd
from llama_index.core import Document
news = pd.read_csv("https://raw.githubusercontent.com/tomasonjo/blog-datasets/main/news_articles.csv")[:50]
documents = [Document(text=f"{row['title']}: {row['text']}") for i, row in news.iterrows()]
3️⃣ 配置 LLM 和 API 密钥:
import os
os.environ["OPENAI_API_KEY"] = "your-api-key"
from llama_index.llms.openai import OpenAI
llm = OpenAI(model="gpt-4")
4️⃣ 构建 GraphRAG 图谱:
- 使用
GraphRAGExtractor
提取实体与关系 - 使用
GraphRAGStore
构建知识图谱并生成社区摘要
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core import PropertyGraphIndex
splitter = SentenceSplitter(chunk_size=1024, chunk_overlap=20)
nodes = splitter.get_nodes_from_documents(documents)
kg_extractor = GraphRAGExtractor(llm=llm, max_paths_per_chunk=2)
index = PropertyGraphIndex(nodes=nodes, property_graph_store=GraphRAGStore(), kg_extractors=[kg_extractor], show_progress=True)
index.property_graph_store.build_communities()
5️⃣ 查询知识图谱:
query_engine = GraphRAGQueryEngine(graph_store=index.property_graph_store, llm=llm)
response = query_engine.query("What are news related to financial sector?")
print(response)
GraphRAG 是下一代语义理解的有力工具,通过结构化知识图谱 + LLM 的结合,为大规模信息检索和理解带来了全新范式。用 LlamaIndex,我们可以轻松构建自己的 GraphRAG 系统,赋能各类业务场景。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!