Llama Index中的属性图索引:深入解析_build_index_from_nodes
和as_retriever
方法
在现代数据科学和人工智能领域,属性图(Property Graph)已成为处理复杂信息的重要工具。属性图通过结构化的方式表示实体及其关系,使得信息的检索和理解变得更加高效。本文将深入探讨Llama Index中的PropertyGraphIndex
类的_build_index_from_nodes
和as_retriever
方法,帮助程序员全面理解其工作原理及实际应用。
前置知识
在开始之前,确保你具备以下基础知识:
- Python基础:熟悉Python编程。
- OpenAI API密钥:你需要一个OpenAI API密钥来使用
OpenAI
模型。 - Llama Index:使用
pip install llama-index
安装Llama Index库。
环境设置
首先,让我们通过安装所需的包并配置OpenAI API密钥来设置环境。
# 安装Llama Index
%pip install llama-index
# 设置OpenAI API密钥
import os
os.environ["OPENAI_API_KEY"] = "sk-..."
# 配置日志
import logging
import sys
logging.basicConfig(stream=sys.stdout, level=logging.INFO)
PropertyGraphIndex
的_build_index_from_nodes
方法
_build_index_from_nodes
方法负责从节点构建索引。它接受一个节点序列作为输入,并调用_insert_nodes
方法将节点插入到索引结构中。
代码解析
def _build_index_from_nodes(
self, nodes: Optional[Sequence[BaseNode]], **build_kwargs: Any
) -> IndexLPG:
"""Build index from nodes."""
nodes = self._insert_nodes(nodes or [])
# this isn't really used or needed
return IndexLPG()
设计思路
-
插入节点:
- 调用
_insert_nodes
方法将节点插入到索引结构中。
- 调用
-
返回索引结构:
- 返回一个空的
IndexLPG
对象。实际上,这个对象并不真正使用或需要,但为了保持方法的完整性,仍然返回它。
- 返回一个空的
代码示例
from llama_index.core import PropertyGraphIndex, StorageContext
from llama_index.core.graph_stores import SimplePropertyGraphStore
from llama_index.llms.openai import OpenAI
from llama_index.core.node_parser import SentenceSplitter
# 定义LLM
llm = OpenAI(temperature=0, model="gpt-3.5-turbo")
# 创建属性图存储
property_graph_store = SimplePropertyGraphStore()
storage_context = StorageContext.from_defaults(graph_store=property_graph_store)
# 创建PropertyGraphIndex
pg_index = PropertyGraphIndex(
storage_context=storage_context,
llm=llm,
embed_kg_nodes=True,
show_progress=True,
)
# 创建节点解析器
node_parser = SentenceSplitter()
documents = [...] # 假设有一些文档
nodes = node_parser.get_nodes_from_documents(documents)
# 构建索引
index = pg_index._build_index_from_nodes(nodes)
print(index)
PropertyGraphIndex
的as_retriever
方法
as_retriever
方法返回一个检索器,用于从索引中检索信息。它接受一个子检索器列表和一些其他参数,并返回一个PGRetriever
对象。
代码解析
def as_retriever(
self,
sub_retrievers: Optional[List["BasePGRetriever"]] = None,
include_text: bool = True,
**kwargs: Any,
) -> BaseRetriever:
"""Return a retriever for the index.
Args:
sub_retrievers (Optional[List[BasePGRetriever]]):
A list of sub-retrievers to use. If not provided, a default list will be used:
`[LLMSynonymRetriever, VectorContextRetriever]` if the graph store supports vector queries.
include_text (bool):
Whether to include source-text in the retriever results.
**kwargs:
Additional kwargs to pass to the retriever.
"""
from llama_index.core.indices.property_graph.retriever import (
PGRetriever,
)
from llama_index.core.indices.property_graph.sub_retrievers.vector import (
VectorContextRetriever,
)
from llama_index.core.indices.property_graph.sub_retrievers.llm_synonym import (
LLMSynonymRetriever,
)
if sub_retrievers is None:
sub_retrievers = [
LLMSynonymRetriever(
graph_store=self.property_graph_store,
include_text=include_text,
llm=self._llm,
**kwargs,
),
]
if self._embed_model and (
self.property_graph_store.supports_vector_queries or self.vector_store
):
sub_retrievers.append(
VectorContextRetriever(
graph_store=self.property_graph_store,
vector_store=self.vector_store,
include_text=include_text,
embed_model=self._embed_model,
**kwargs,
)
)
return PGRetriever(sub_retrievers, use_async=self._use_async, **kwargs)
设计思路
-
检查子检索器列表:
- 如果未提供子检索器列表,则使用默认的子检索器列表。
- 默认的子检索器列表包括
LLMSynonymRetriever
和VectorContextRetriever
(如果属性图存储支持向量查询)。
-
创建子检索器:
- 创建
LLMSynonymRetriever
对象,并将其添加到子检索器列表中。 - 如果嵌入模型已配置且属性图存储支持向量查询或向量存储已配置,则创建
VectorContextRetriever
对象,并将其添加到子检索器列表中。
- 创建
-
返回检索器:
- 返回一个
PGRetriever
对象,该对象使用子检索器列表和异步模式。
- 返回一个
代码示例
from llama_index.core import PropertyGraphIndex, StorageContext
from llama_index.core.graph_stores import SimplePropertyGraphStore
from llama_index.llms.openai import OpenAI
from llama_index.core.node_parser import SentenceSplitter
# 定义LLM
llm = OpenAI(temperature=0, model="gpt-3.5-turbo")
# 创建属性图存储
property_graph_store = SimplePropertyGraphStore()
storage_context = StorageContext.from_defaults(graph_store=property_graph_store)
# 创建PropertyGraphIndex
pg_index = PropertyGraphIndex(
storage_context=storage_context,
llm=llm,
embed_kg_nodes=True,
show_progress=True,
)
# 创建节点解析器
node_parser = SentenceSplitter()
documents = [...] # 假设有一些文档
nodes = node_parser.get_nodes_from_documents(documents)
# 构建索引
pg_index._build_index_from_nodes(nodes)
# 获取检索器
retriever = pg_index.as_retriever(include_text=True)
print(retriever)
总结
通过Llama Index的PropertyGraphIndex
,我们可以轻松地从节点构建索引并获取检索器。_build_index_from_nodes
和as_retriever
方法的设计思路清晰,能够帮助程序员更好地理解和应用属性图技术。希望这篇博客能帮助你更好地理解和应用属性图技术。