22 LlamaIndex中的文档定义与元数据

LlamaIndex中的文档定义与自定义

在LlamaIndex中,文档(Document)是一个核心概念,它允许我们以多种方式定义和自定义数据源。本文将详细介绍如何定义和自定义文档,以便更好地满足你的需求。

定义文档

文档可以通过数据加载器自动创建,也可以手动构造。

自动创建文档

默认情况下,所有数据加载器(包括LlamaHub提供的那些)通过load_data函数返回文档对象。

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data").load_data()

手动构造文档

你也可以选择手动构造文档。LlamaIndex提供了Document结构体。

from llama_index.core import Document

text_list = [text1, text2, ...]
documents = [Document(text=t) for t in text_list]

为了加快原型设计和开发,你可以使用一些默认文本快速创建文档:

document = Document.example()

自定义文档

本节将介绍各种自定义文档对象的方法。由于文档对象是TextNode对象的子类,所有这些设置和细节也适用于TextNode对象类。

元数据(Metadata)

文档还提供了包含有用元数据的机会。使用每个文档上的元数据字典,可以包含额外的信息,以帮助响应查询并跟踪查询响应的来源。这些信息可以是任何内容,例如文件名或类别。如果你与向量数据库集成,请记住一些向量数据库要求键必须是字符串,值必须是平面的(字符串、浮点数或整数)。

在文档的元数据字典中设置的任何信息将显示在从文档创建的每个源节点的元数据中。此外,这些信息包含在节点中,使索引能够在查询和响应中利用它。默认情况下,元数据被注入到文本中,用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

需要重新演唱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值