OpenAI 的公告对于检索增强生成 (RAG) 和纯向量数据库意味着什么?

在这里插入图片描述

OpenAI 今天发布了一系列公告。我计划在以后的文章中深入研究其他重要内容,但现在,让我们重点关注一项革命性的公告,该公告消除了在某些用例中对纯矢量数据库的需求 -一种 OpenAI 检索工具,不需要您这样做创建或搜索向量。

到目前为止,如果您正在开发基于语言模型 (LLM) 的应用程序,该应用程序可以识别您的数据(即您公司在防火墙后面或私有虚拟私有云内的数据),您将使用 LangChain 等工具的组合, Llamaindex 和纯矢量数据库。整体架构如下所示。
在这里插入图片描述

使用LangChain和Llamaindex进行检索
今天,OpenAI 引入了一种称为“助手”的新概念,它允许用户以低代码/无代码的方式配置与上述类似的架构。这消除了对任何纯向量数据库的需要,并将整个过程简化为仅两个步骤。此外,一旦创建了助手,您就可以通过几行代码来访问它。

此外,您现在可以通过 API 向 OpenAI 发送其他文件,并且可以发送最多 128K 个令牌的上下文,相当于大约 300 页文本。当您从代码访问这些助手时,您还可以向助手提供最多 128 个工具的访问权限,包括进行外部 API 调用和接收返回的数据以供这些助手进行处理。

这就是基于助手的架构的样子 -
在这里插入图片描述

OpenAI的助手和检索工具
以下是 OpenAI 官方公告中跳出的关于 OpenAI 检索工具的一条重要信息:“[该工具]……利用我们模型之外的知识来增强助手,例如专有领域数据、产品信息或用户提供的文档。这意味着您不需要计算和存储文档的嵌入或实现分块和搜索算法。Assistants API 根据我们在 ChatGPT 中构建知识检索的经验,优化了要使用的检索技术。”

在接下来的几天里,许多开发人员将测试这一新功能,看看 Llamaindex 和纯向量数据库的使用如何发展将会很有趣。然而,我必须指出,虽然这消除了个人/独立/公民开发人员使用/购买另一个纯向量数据库来构建新应用程序的需要,但大型企业仍然拥有 SQL、NoSQL、Binary、HDFS 和其他 PB 级数据。格式。如果您是一家构建数据感知 LLM 应用程序的大型企业,您仍然需要一个上下文数据库 - 一个可以使用混合搜索功能(词汇和语义搜索)存储和检索不同数据类型的数据库。尽管如此,看到 OpenAI 如此快速的发展还是令人着迷的。

如果您好奇,以下是 OpenAI 检索工具当前支持的文件类型。
在这里插入图片描述

请继续关注,我会更深入地研究这些新功能,并与客户讨论这如何影响他们的整体用例和开发工作。

无论哪种情况,随着这个公告,我都会非常担心我是否是一个纯矢量数据库。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

IntelliRealam

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值