llamaindex 索引的工作原理

需要重新演唱

于 2024-08-05 07:45:00 发布

阅读量411

点赞数 3

分类专栏： llamaindex 文章标签： llamaindex RAG 人工智能索引

本文链接：https://blog.csdn.net/xycxycooo/article/details/140800054

版权

llamaindex 专栏收录该内容

28 篇文章 2 订阅

订阅专栏

索引的工作原理

术语解释

节点（Node）：对应于文档中的一个文本块。LlamaIndex接收文档对象，并在内部将其解析/分块为节点对象。
响应合成（Response Synthesis）：我们的模块，用于在检索到的节点基础上合成响应。你可以指定不同的响应模式。

总结索引（Summary Index，前身为List Index）

总结索引简单地将节点存储为一个顺序链。

查询过程

在查询时，如果没有指定其他查询参数，LlamaIndex会简单地将列表中的所有节点加载到响应合成模块中。

总结索引提供了多种查询方式，从基于嵌入的查询（将获取top-k邻居），到添加关键字过滤器，如下所示：

向量存储索引（Vector Store Index）

向量存储索引将每个节点及其对应的嵌入存储在向量存储中。

查询过程

查询向量存储索引涉及获取top-k最相似的节点，并将这些节点传递到响应合成模块中。

树索引（Tree Index）

树索引从一组节点构建一个层次树（这些节点成为树的叶子节点）。

查询过程

查询树索引涉及从根节点遍历到叶子节点。默认情况下（child_branch_factor=1），查询在给定父节点时选择一个子节点。如果child_branch_factor=2，查询在每层选择两个子节点。

关键字表索引（Keyword Table Index）

关键字表索引从每个节点提取关键字，并构建从每个关键字到相应节点的映射。

查询过程

在查询时，我们从查询中提取相关关键字，并将这些关键字与预提取的节点关键字匹配，以获取相应的节点。提取的节点被传递到响应合成模块中。

属性图索引（Property Graph Index）

属性图索引通过构建一个包含标记节点和关系的知识图谱来工作。这个图谱的构建非常可定制，从让LLM提取任何它想要的内容，到使用严格的模式提取，甚至实现自己的提取模块。

可选地，节点也可以嵌入以便稍后检索。

你也可以跳过创建，并使用像Neo4j这样的集成连接到现有的知识图谱。

查询过程

查询属性图索引也非常灵活。检索通过使用几个子检索器并结合结果来工作。默认情况下，使用关键字和同义词扩展，以及向量检索（如果你的图谱被嵌入），以检索相关的三元组。

你也可以选择在检索到的三元组之外包含源文本（对于在LlamaIndex之外创建的图谱不可用）。

编程示例

总结索引示例

from llama_index import SummaryIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建总结索引
index = SummaryIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)

向量存储索引示例

from llama_index import VectorStoreIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建向量存储索引
index = VectorStoreIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)

树索引示例

from llama_index import TreeIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建树索引
index = TreeIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)

关键字表索引示例

from llama_index import KeywordTableIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建关键字表索引
index = KeywordTableIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)

属性图索引示例

from llama_index import PropertyGraphIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建属性图索引
index = PropertyGraphIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)