使用Spring AI 和 LLM 实现数据库查询

最新推荐文章于 2025-04-09 16:33:19 发布

yule.yang

最新推荐文章于 2025-04-09 16:33:19 发布

阅读量1.9k

点赞数 11

分类专栏： AI 数据库 Java 文章标签：数据库 ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yugongpeng/article/details/139650427

版权

AIDocumentLibraryChat 项目已扩展为支持提问来搜索关系数据库。用户可以输入一个问题，然后嵌入搜索相关的数据库表和列来回答问题。然后，LLM 获取相关表的数据库架构，并根据找到的表和列生成一个 SQL 查询，来展示结果回答问题。

数据集和元数据

使用的开源数据集有 6 个表，彼此之间有关系。它包含有关博物馆和艺术品的数据。为了获得有用的问题查询，必须为数据集提供元数据，并且必须在嵌入中转换元数据。

数据集和元数据

为了使 LLM 能够找到所需的表和列，它需要知道它们的名称和描述。对于像 museum 表这样的所有数据表，元数据都存储在 column_metadata 和 table_metadata 表中。它们的数据可以在以下文件中找到: column_metadata.csv 和 table_metadata.csv。它们包含表或列的唯一 ID、名称、描述等。该描述用于创建与问题嵌入进行比较的嵌入。描述的质量对结果有很大的影响，因为更好的描述会使嵌入更精确。提供同义词是提高质量的一种选择。表元数据包含表的模式，以便仅向 LLM 提示符添加相关的表模式。

嵌入

为了在 Postgresql 中存储嵌入，使用了向量扩展。可以使用 OpenAI 端点或 Spring AI 提供的 ONNX 库创建嵌入。创建了三种类型的嵌入：

Tabledescription嵌入
Columndescription嵌入
Rowcolumn嵌入

Tabledescription 嵌入有一个基于表描述的向量，嵌入有 tablename、datatype = table 和元数据中的元数据 id。
Columndescription 嵌入有一个基于列描述的向量，嵌入有表名、带列名的数据名、datatype = column 和元数据中的元数据 id。

Rowcolumn 嵌入有一个基于内容行列值的向量。用于美术作品的样式或主题，以便能够使用问题中的值。元数据具有datatype = row、作为 dataname 的列名、表名和元数据 id。

实现搜索

搜索有 3 个步骤：

检索嵌入
创建提示
执行查询并返回结果

检索嵌入

为了从具有向量扩展的 Postgresql 数据库中读取嵌入，Spring AI 使用 DocumentVSRepositoryBean 中的 VectorStore

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。