llamaindex 索引的工作原理

索引的工作原理

术语解释
  • 节点(Node):对应于文档中的一个文本块。LlamaIndex接收文档对象,并在内部将其解析/分块为节点对象。
  • 响应合成(Response Synthesis):我们的模块,用于在检索到的节点基础上合成响应。你可以指定不同的响应模式。

总结索引(Summary Index,前身为List Index)

总结索引简单地将节点存储为一个顺序链。

查询过程

在查询时,如果没有指定其他查询参数,LlamaIndex会简单地将列表中的所有节点加载到响应合成模块中。

总结索引提供了多种查询方式,从基于嵌入的查询(将获取top-k邻居),到添加关键字过滤器,如下所示:

向量存储索引(Vector Store Index)

向量存储索引将每个节点及其对应的嵌入存储在向量存储中。

查询过程

查询向量存储索引涉及获取top-k最相似的节点,并将这些节点传递到响应合成模块中。

树索引(Tree Index)

树索引从一组节点构建一个层次树(这些节点成为树的叶子节点)。

查询过程

查询树索引涉及从根节点遍历到叶子节点。默认情况下(child_branch_factor=1),查询在给定父节点时选择一个子节点。如果child_branch_factor=2,查询在每层选择两个子节点。

关键字表索引(Keyword Table Index)

关键字表索引从每个节点提取关键字,并构建从每个关键字到相应节点的映射。

查询过程

在查询时,我们从查询中提取相关关键字,并将这些关键字与预提取的节点关键字匹配,以获取相应的节点。提取的节点被传递到响应合成模块中。

属性图索引(Property Graph Index)

属性图索引通过构建一个包含标记节点和关系的知识图谱来工作。这个图谱的构建非常可定制,从让LLM提取任何它想要的内容,到使用严格的模式提取,甚至实现自己的提取模块。

可选地,节点也可以嵌入以便稍后检索。

你也可以跳过创建,并使用像Neo4j这样的集成连接到现有的知识图谱。

查询过程

查询属性图索引也非常灵活。检索通过使用几个子检索器并结合结果来工作。默认情况下,使用关键字和同义词扩展,以及向量检索(如果你的图谱被嵌入),以检索相关的三元组。

你也可以选择在检索到的三元组之外包含源文本(对于在LlamaIndex之外创建的图谱不可用)。

编程示例

总结索引示例
from llama_index import SummaryIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建总结索引
index = SummaryIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)
向量存储索引示例
from llama_index import VectorStoreIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建向量存储索引
index = VectorStoreIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)
树索引示例
from llama_index import TreeIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建树索引
index = TreeIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)
关键字表索引示例
from llama_index import KeywordTableIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建关键字表索引
index = KeywordTableIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)
属性图索引示例
from llama_index import PropertyGraphIndex, SimpleDirectoryReader

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建属性图索引
index = PropertyGraphIndex.from_documents(documents)

# 查询索引
response = index.query("你的查询")
print(response)

拓展

每种索引类型都有其独特的优势和适用场景。总结索引适用于需要顺序处理的场景,向量存储索引适用于需要高效相似度检索的场景,树索引适用于需要层次结构处理的场景,关键字表索引适用于需要关键字匹配的场景,而属性图索引适用于需要复杂关系和知识图谱的场景。

在实际应用中,可以根据具体需求选择最合适的索引类型,并结合响应合成模块来实现高效的查询和响应生成。

希望这些解释和示例能帮助你更好地理解和使用不同的索引类型。如果有任何问题或需要进一步的解释,请随时提问。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

需要重新演唱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值