158 `PropertyGraphIndex`类的`_build_index_from_nodes`和`as_retriever`方法

需要重新演唱

于 2024-09-26 11:15:39 发布

阅读量232

点赞数 5

分类专栏： llamindex文章文章标签： LLM rag

本文链接：https://blog.csdn.net/xycxycooo/article/details/142551271

版权

llamindex文章专栏收录该内容

162 篇文章 6 订阅

订阅专栏

Llama Index中的属性图索引：深入解析`_build_index_from_nodes`和`as_retriever`方法

在现代数据科学和人工智能领域，属性图（Property Graph）已成为处理复杂信息的重要工具。属性图通过结构化的方式表示实体及其关系，使得信息的检索和理解变得更加高效。本文将深入探讨Llama Index中的PropertyGraphIndex类的_build_index_from_nodes和as_retriever方法，帮助程序员全面理解其工作原理及实际应用。

前置知识

在开始之前，确保你具备以下基础知识：

Python基础：熟悉Python编程。
OpenAI API密钥：你需要一个OpenAI API密钥来使用OpenAI模型。
Llama Index：使用pip install llama-index安装Llama Index库。

环境设置

首先，让我们通过安装所需的包并配置OpenAI API密钥来设置环境。

# 安装Llama Index
%pip install llama-index

# 设置OpenAI API密钥
import os
os.environ["OPENAI_API_KEY"] = "sk-..."

# 配置日志
import logging
import sys
logging.basicConfig(stream=sys.stdout, level=logging.INFO)

`PropertyGraphIndex`的`_build_index_from_nodes`方法

_build_index_from_nodes方法负责从节点构建索引。它接受一个节点序列作为输入，并调用_insert_nodes方法将节点插入到索引结构中。

代码解析

def _build_index_from_nodes(
    self, nodes: Optional[Sequence[BaseNode]], **build_kwargs: Any
) -> IndexLPG:
    """Build index from nodes."""
    nodes = self._insert_nodes(nodes or [])

    # this isn't really used or needed
    return IndexLPG()

设计思路

插入节点：
- 调用_insert_nodes方法将节点插入到索引结构中。
返回索引结构：
- 返回一个空的IndexLPG对象。实际上，这个对象并不真正使用或需要，但为了保持方法的完整性，仍然返回它。

代码示例

from llama_index.core import PropertyGraphIndex, StorageContext
from llama_index.core.graph_stores import SimplePropertyGraphStore
from llama_index.llms.openai import OpenAI
from llama_index.core.node_parser import SentenceSplitter

# 定义LLM
llm = OpenAI(temperature=0, model="gpt-3.5-turbo")

# 创建属性图存储
property_graph_store = SimplePropertyGraphStore()
storage_context = StorageContext.from_defaults(graph_store=property_graph_store)

# 创建PropertyGraphIndex
pg_index = PropertyGraphIndex(
    storage_context=storage_context,
    llm=llm,
    embed_kg_nodes=True,
    show_progress=True,
)

# 创建节点解析器
node_parser = SentenceSplitter()
documents = [...]  # 假设有一些文档
nodes = node_parser.get_nodes_from_documents(documents)

# 构建索引
index = pg_index._build_index_from_nodes(nodes)
print(index)

`PropertyGraphIndex`的`as_retriever`方法

as_retriever方法返回一个检索器，用于从索引中检索信息。它接受一个子检索器列表和一些其他参数，并返回一个PGRetriever对象。

代码解析

def as_retriever(
    self,
    sub_retrievers: Optional[List["BasePGRetriever"]] = None,
    include_text: bool = True,
    **kwargs: Any,
) -> BaseRetriever:
    """Return a retriever for the index.

    Args:
        sub_retrievers (Optional[List[BasePGRetriever]]):
            A list of sub-retrievers to use. If not provided, a default list will be used:
            `[LLMSynonymRetriever, VectorContextRetriever]` if the graph store supports vector queries.
        include_text (bool):
            Whether to include source-text in the retriever results.
        **kwargs:
            Additional kwargs to pass to the retriever.
    """
    from llama_index.core.indices.property_graph.retriever import (
        PGRetriever,
    )
    from llama_index.core.indices.property_graph.sub_retrievers.vector import (
        VectorContextRetriever,
    )
    from llama_index.core.indices.property_graph.sub_retrievers.llm_synonym import (
        LLMSynonymRetriever,
    )

    if sub_retrievers is None:
        sub_retrievers = [
            LLMSynonymRetriever(
                graph_store=self.property_graph_store,
                include_text=include_text,
                llm=self._llm,
                **kwargs,
            ),
        ]

        if self._embed_model and (
            self.property_graph_store.supports_vector_queries or self.vector_store
        ):
            sub_retrievers.append(
                VectorContextRetriever(
                    graph_store=self.property_graph_store,
                    vector_store=self.vector_store,
                    include_text=include_text,
                    embed_model=self._embed_model,
                    **kwargs,
                )
            )

    return PGRetriever(sub_retrievers, use_async=self._use_async, **kwargs)

设计思路

检查子检索器列表：
- 如果未提供子检索器列表，则使用默认的子检索器列表。
- 默认的子检索器列表包括LLMSynonymRetriever和VectorContextRetriever（如果属性图存储支持向量查询）。
创建子检索器：
- 创建LLMSynonymRetriever对象，并将其添加到子检索器列表中。
- 如果嵌入模型已配置且属性图存储支持向量查询或向量存储已配置，则创建VectorContextRetriever对象，并将其添加到子检索器列表中。
返回检索器：
- 返回一个PGRetriever对象，该对象使用子检索器列表和异步模式。

代码示例

from llama_index.core import PropertyGraphIndex, StorageContext
from llama_index.core.graph_stores import SimplePropertyGraphStore
from llama_index.llms.openai import OpenAI
from llama_index.core.node_parser import SentenceSplitter

# 定义LLM
llm = OpenAI(temperature=0, model="gpt-3.5-turbo")

# 创建属性图存储
property_graph_store = SimplePropertyGraphStore()
storage_context = StorageContext.from_defaults(graph_store=property_graph_store)

# 创建PropertyGraphIndex
pg_index = PropertyGraphIndex(
    storage_context=storage_context,
    llm=llm,
    embed_kg_nodes=True,
    show_progress=True,
)

# 创建节点解析器
node_parser = SentenceSplitter()
documents = [...]  # 假设有一些文档
nodes = node_parser.get_nodes_from_documents(documents)

# 构建索引
pg_index._build_index_from_nodes(nodes)

# 获取检索器
retriever = pg_index.as_retriever(include_text=True)
print(retriever)

总结

通过Llama Index的PropertyGraphIndex，我们可以轻松地从节点构建索引并获取检索器。_build_index_from_nodes和as_retriever方法的设计思路清晰，能够帮助程序员更好地理解和应用属性图技术。希望这篇博客能帮助你更好地理解和应用属性图技术。