向量数据库
文章平均质量分 88
向量数据库相关技术分享
沃趣数据库管理平台
这个作者很懒,什么都没留下…
展开
-
PostgreSQL 作为向量数据库:入门和扩展
本指南将深入研究该特定模式在应用程序中的实现。然而,由于搜索是近似的,搜索的召回率可能不是 100% 相关/准确,因为索引仅遍历数据的子集。它允许您存储和处理具有数千个维度的向量,计算向量化数据之间的欧几里德距离和余弦距离,并执行精确和近似最近邻搜索。为了在数据量和流量不断增加的情况下保持 Postgres 的性能和可扩展性,您可以使用矢量化数据的专用索引和/或使用Postgres 的分布式版本水平扩展存储和计算资源。数据库需要几毫秒的时间来执行精确的最近邻搜索,比较用户提示和 Airbnb 描述的嵌入。原创 2023-12-29 11:32:14 · 1909 阅读 · 1 评论 -
五个向量搜索中的难题,以及我们在Cassandra中如何解决它们
这是你能找到的一个纯粹的RAG应用程序,使用向量搜索将适当的文档呈现给LLM以回应用户的问题。对我们来说,这是一个简单的问题:Cassandra的主要优势是扩展复制,结合新的Cassandra-5.0中的SAI(存储关联索引——参见CEP-7了解它的工作原理——和SAI文档了解如何使用它)为我们的向量搜索实现提供了强大的扩展能力,实际上是免费的。在这个年轻领域的当前艺术状态是尝试在一个“正常”的数据库中做我所称的经典查询,在一个向量数据库中进行向量查询,然后在同时需要两者时用拼凑的方式将两者结合在一起。原创 2023-10-24 09:30:00 · 179 阅读 · 0 评论 -
AI 项目的五个最佳矢量数据库
您是否需要基于数据库的解决方案来支持您的人工智能应用程序?全栈开发人员和独立IT顾问亚历山大·威廉姆斯在The New Stack网站上介绍了五个革命性的向量数据库,它们正在改变机器学习和相似性搜索领域。向量数据库是一种有效的解决方案,用于存储和搜索大量的向量数据。在本文中,我们将介绍五个领先的向量数据库,它们在机器学习和相似性搜索方面产生了革命性的影响。在此之前,让我们先了解一下什么是向量数据库。向量数据库是一种特殊类型的数据库,用于基于相似性组织数据。原创 2023-07-03 09:36:55 · 1282 阅读 · 0 评论 -
向量数据库(第 4 部分):分析权衡
在本系列的上一篇文章中,我们介绍了向量数据库中通常使用的不同类型的索引。然而,索引只是向量数据库中更大问题中的一小部分。回想一下,在第二部分中,我们描述了什么是向量数据库。为了区分目前市场上的各种向量数据库产品,我们需要了解以下组件之间的关系:应用层,以及它所处的位置数据层,以及它在数据库和应用层之间的位置索引策略,以及它如何与内存和CPU使用相关联存储层设计在所有这些方面与可扩展性和成本考虑相关的问题每个组件都涉及自己的权衡。我将它们分成了以下几个类别 - 我相信还有一原创 2023-08-29 09:32:30 · 238 阅读 · 0 评论 -
向量数据库(第 3 部分):并非所有索引都是一样的
这是我关于向量数据库的系列文章的第三篇。第一部分比较了各种数据库供应商的产品以及它们在高层面上的区别,而第二部分则着重介绍了向量数据库的基础知识和功能。您可能已经阅读过Dmitry Kan在2021年撰写的优秀文章《并非所有向量数据库都是相同的》1,该文章涵盖了市场上各种向量数据库之间的差异。自那时以来,这个领域一直在不断发展,因为每个数据库在其内部都与其他数据库不同,所以我认为深入探讨索引是有意义的,因为索引是向量搜索的基础。假设你已经充分了解什么是向量数据库,那么值得回过头来思考一下,它是如何如此出色地原创 2023-08-28 09:48:30 · 366 阅读 · 0 评论 -
用Rust一周内编写一个向量数据库
如果开始一个新的索引,我们从一个空的HNSW开始。在未来,我们希望使用我们在TerminusDB中学到的一些技巧来保留索引的层,这样新的层可以被添加,而不需要每个增量索引在序列化时添加一个副本。虽然在野外有很棒的向量数据库,如Pinecone,但我们希望有一个能与TerminusDB良好集成的副本,可以供主要关心内容的不那么技术化的用户使用,他们不会去自己搭建向量数据库。我们需要一些不寻常的特性,包括进行增量索引的能力,以及在提交的基础上进行索引的能力,这样我们就可以准确地知道索引适用于哪个提交。原创 2023-06-28 09:45:52 · 488 阅读 · 0 评论 -
向量数据库(第 1 部分):每个数据库有何不同?
在2023年上半年,与向量数据库相关的营销(不幸的是,有些是炒作)非常多,如果你正在阅读这篇文章,你可能好奇为什么存在这么多种类的向量数据库,它们之间有何不同。从理论上讲,向量数据库都在做同样的事情(它们支持一系列需要语义搜索的应用程序),那么如何开始形成对它们的明智看法呢?🤔 在本文中,我将尽可能以视觉方式突出各种向量数据库之间的差异。我还将强调我进行比较的特定维度,以提供更全面的视角。这么多选择!🤯在过去的几个月里,我一直在研究不同的向量数据库及其内部结构,并通过它们的Python API原创 2023-08-24 09:52:59 · 314 阅读 · 0 评论 -
向量数据库(第 2 部分):了解其内部结构
需要记住的是,底层向量的维度越低,嵌入空间中的表示就越紧凑,这可能会影响下游任务的质量。与在数据库中的每个向量之间进行详尽比较不同,近似搜索会寻找最近邻,从而在结果的准确性上有一定的损失(可能并不总是返回真正的最近邻),但使用ANN算法可以获得巨大的性能提升。这是关于向量数据库的系列文章中的第二篇。正如本系列的第一篇所提到的,2023年上半年关于向量数据库的营销(不幸的是,有些是炒作)非常多,如果你正在阅读这篇文章,你可能对向量数据库在底层是如何工作的,以及如何在高效的向量存储之上构建搜索功能感兴趣。原创 2023-08-25 09:43:33 · 287 阅读 · 0 评论