使用基于Embedding的搜索来实现问答

最新推荐文章于 2024-08-28 16:35:33 发布

雪碧没气阿

最新推荐文章于 2024-08-28 16:35:33 发布

阅读量1k

点赞数 21

文章标签： embedding 人工智能大语言模型 LLM CookBook 吴恩达 LLM 计算机技术

本文链接：https://blog.csdn.net/xxue345678/article/details/141086839

版权

注：本文来自OpenAI的Cookbook，原文是英文，以下译文完全是由AI翻译的：

GPT擅长回答问题，但仅限于它从训练数据中记住的内容。

如果你希望GPT回答有关不熟悉的内容，该怎么办？例如：

2021年9月之后，最近发生的事件；
你的非公开文档；
来自过去对话的信息等。

本文演示了一种基于搜索-提问的两步法，使GPT能够使用参考文本库回答问题。

搜索：在文本库中搜索相关文本片段；
提问：将检索到的文本片段连同消息一并发送至GPT并提问问题。

为什么搜索比微调更好

GPT可以通过两种方式学习知识：

通过模型权重（即在训练集上微调模型）
通过模型输入（即将知识插入在输入消息中）

尽管微调感觉像是更自然的选择（毕竟，数据训练是GPT学习所有其他知识的方式），但我们通常不推荐将其作为教授模型知识的方式。微调更适合教授专门的任务或风格，但对于事实来说不太可靠。

打个比方，模型权重就像长期记忆。当你对模型进行微调时，就像为一周后的考试做准备一样。当考试到来时，模型可能会忘记细节，或者记错它从未读过的事实。

相比之下，消息输入就像短期记忆。当你在消息中插入知识时，就像用现成的笔记参加考试一样。有了笔记，模型更有可能得出正确答案。

文本搜索相对于微调的一个缺点是每个模型都受到一次可以读取的最大文本量的限制：

模型	最大文本长度
gpt-3.5-turbo	4,096个Token（约5页）
gpt-4	8,192个Token（约10页）
gpt-4-32k	32,768个Token（约40页）

继续这个类比，你可以把这个模型想象成一个学生，尽管书架上可能有很多课本可供参考，但一次只能看几页笔记。

因此，为了构建一个能够利用大量文本来回答问题的系统，我们建议使用“搜索-提问”的方法。

搜索

可以通过多种方式搜索文本。例如：

基于词汇的搜索
基于图的搜索
基于Embedding的搜索

此示例文档使用基于Embedding（嵌入）的搜索。Embedding很容易实现，并且特别适用于回答问题，因为问题在词汇上通常不会与其答案重叠。

可以将使用Embedding搜索视为你自己的系统的起点。更好的搜索系统可能会结合多种搜索方法，以及诸如流行度、新鲜度、用户历史记录、先前搜索结果的冗余度、点击率数据等特征。问答检索性能也可以通过HyDE等技术来提高，在Embedding之前，问题首先被转换为假设的答案。同样，GPT还可以通过自动将问题转换为关键字或搜索词组来改善搜索结果。

完整程序

具体来说，本文演示了以下过程：

准备搜索数据（每个文档仅需准备一次）
1. 收集：我们将下载数百篇有关2022年奥运会的维基百科文章；
2. 分块：文档被分成简短的、独立的片段用于Embedding；
3. Embedding：每个部分都使用OpenAI API来实现Embedding；
4. 保存：Embedding被存储起来（对于大型数据集，使用矢量数据库）。
搜索（针对每次查询）
1. 给定用户问题，使用OpenAI API将查询转换成Embedding；
2. 使用Embedding，根据查询的相关性对文本部分进行排名。
提问（针对每次查询）
1. 将问题和最相关的部分插入至发送到GPT的消息中；
2. 返回GPT给出的答案。

成本

由于GPT比Embedding搜索更昂贵，因此具有大量查询的系统成本将主要由步骤3决定。

对于每个查询使用约1,000个Token的gpt-3.5-turbo，每个查询的成本约为0.002美元，或1美元约500个查询（截至2023年4月）；
对于gpt-4，再次假设每个查询约1,000个Token，每个查询的成本约为0.03美元，或1美元约30个查询（截至2023年4月）。

当然，确切的成本将取决于系统的具体实现和使用模式。

前言

我们将从以下开始：

导入必要的库；
选择Embedding搜索和问答的模型。

疑难解答：安装库

如果你需要安装上述任何库，请在终端中运行pip install {library_name}。

例如，要安装openai库，请运行：

pip install openai

（你也可以在notebook中使用!pip install openai或%pip install openai来执行此操作。）

安装后，重新启动notebook，以便可以加载库。

疑难解答：设置API密钥

OpenAI库将尝试从OPENAI_API_KEY环境变量中读取你的API密钥。如果你还没有设置此环境变量，则可以按照此说明进行设置。

一个示例：GPT无法回答有关时事的问题

由于gpt-3.5-turbo和gpt-4的训练数据大多于2021年9月结束，因此模型无法回答有关近期事件的问题，例如2022年冬季奥运会。

例如，让我们尝试提问“哪些运动员赢得了2022年冰壶金牌？”：

在这里插入图片描述

在这种情况下，模型不知道2022年发生的事情，无法回答该问题。

你可以通过将某个主题的内容插入到输入消息中来提供有关该主题的GPT知识

为了帮助模型了解2022年冬季奥运会的冰壶知识，我们可以将相关维基百科文章的上半部分复制并粘贴到我们的消息中：
在这里插入图片描述

由于输入消息中包含维基百科文章，因此GPT能够正确回答。

在这个特殊案例中，GPT足够聪明，意识到最初的问题未明确说明，因为冰壶金牌项目有三项，而不仅仅是一项。

当然，这个例子部分依赖于人类智慧。我们知道问题是关于冰壶的，所以我们插入了一篇关于冰壶的维基百科文章。

本文的其余部分展示了如何通过基于嵌入的搜索来自动实现知识的插入。

1. 准备搜索数据

为了节省您的时间和费用，我们准备了一个预嵌入数据集，其中包含数百篇有关2022年冬季奥运会的维基百科文章。

要了解我们如何构建此数据集或自行修改它，请参阅嵌入维基百科文章以进行搜索。

在这里插入图片描述

2. 搜索

现在我们将定义一个搜索函数：

接受用户查询和带有文本和Embedding列的数据框；
使用OpenAI API嵌入用户查询；
根据查询和文本的Embedding距离对文本进行排序；
返回两个列表：
- 前N个文本，按相关性排名；
- 它们对应的相关性分数。

在这里插入图片描述

3. 提问

通过上面的搜索功能，我们现在可以自动检索相关知识并将其插入到GPT的消息中。

下面，我们定义一个函数ask：

接受用户查询；
搜索与查询相关的文本；
将该文本填充到GPT消息中；
将消息发送到GPT；
返回GPT的答案。

示例问题

最后，让我们向系统提问有关金牌冰壶的原始问题：

在这里插入图片描述

尽管gpt-3.5-turbo对2022年冬季奥运会一无所知，但我们的搜索系统能够检索参考文本供模型阅读，从而使其能够正确列出男子和女子锦标赛的金牌获得者。

然而，它仍然不太完美——该模型未能列出混双项目的金牌获得者。

解决错误答案问题

要查看错误是否是由于缺乏相关源文本（即搜索步骤失败）或缺乏推理可靠性（即提问步骤失败）造成的，你可以通过设置print_message=True。

在这个特定情况下，查看下面的文本，看起来为模型提供的第1篇文章确实包含所有三个项目的奖牌获得者，但后来的结果强调了男子和女子比赛，这可能分散了模型给出的注意力更完整的答案。
在这里插入图片描述

知道这个错误是由于提问步骤中的推理不完善，而不是搜索步骤中的检索不完善造成的，所以让我们重点改进提问步骤。

改善结果的最简单方法是使用功能更强大的模型，例如GPT-4。我们来试试吧。
在这里插入图片描述

GPT-4的回答十分完美，正确识别了所有12名冰壶金牌得主。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述