GPT 学习笔记-让GPT基于embeddings搜索来回答问题

最新推荐文章于 2024-06-07 14:55:35 发布

woohooli

最新推荐文章于 2024-06-07 14:55:35 发布

阅读量1.7k

点赞数

文章标签： gpt 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woohooli/article/details/130742180

版权

1.什么是embedding search

嵌入（Embedding）是一种将离散的符号（如词语、字符或文档）映射到连续向量空间的表示方法。它将离散的符号转换为实数向量，从而使得计算机可以更好地处理和理解文本数据。

OPENAI提供内置的Embedding api，可以直接使用。

2.如果要求GPT回答关于不熟悉的话题的问题，可以采用以下方法：

搜索：利用一个文本库，搜索相关的文本段落，这些段落可能包含与感兴趣的问题或话题相关的信息。
提问：一旦从搜索步骤中检索到相关的文本段落，将它们插入到向GPT提问的消息中，并询问具体的问题。

这种方法利用了GPT现有的知识和能力，并通过参考文本提供的额外信息来回答关于不熟悉话题的问题。

Why search is better than fine-tuning

GPT可以通过两种方式学习知识：

通过模型权重（即，在训练集上对模型进行微调）
通过模型输入（即，将知识插入到输入信息中）

虽然微调可能感觉更自然一些——毕竟，通过训练数据来学习知识是GPT学习其他知识的方式——但我们通常不建议将微调作为向模型传授知识的方式。微调更适合教授专门的任务或风格，对于事实回忆来说可靠性较低。

打个比方，模型权重就像长期记忆。当你对模型进行微调时，就像在一个离考试还有一周的时候开始复习。当考试来临时，模型可能会忘记细节，或者错误地记住从未读取过的事实。

相反，消息输入就像短期记忆。当你将知识插入到消息中时，就像带着开放式笔记参加考试。有了笔记，模型更有可能得出正确的答案。

相对于微调，文本搜索的一个缺点是每个模型一次只能阅读最大数量的文本。搜索方法的一个限制是每个模型一次只能阅读有限量的文本。因此，提取并提供简明扼要、相关的文本段落对于有效地回答问题至关重要。

延续上面的比喻，可以将模型想象成一个学生，尽管可能有许多书籍可供参考，但一次只能看几页笔记。

因此，为了构建一个能够利用大量文本回答问题的系统，我们建议采用搜索-提问的方法。

搜索

文本可以通过多种方式进行搜索，例如：

基于词汇的搜索
基于图的搜索
基于Embedding的搜索

后面的例子使用基于嵌入的搜索。嵌入是一种简单实现的方法，特别适用于问题，因为问题通常在词汇上与其答案不重叠。

将仅使用嵌入进行搜索作为构建自己系统的起点。更好的搜索系统可以结合多种搜索方法，以及诸如受欢迎程度、最新性、用户历史、与先前搜索结果的冗余度、点击率数据等特征。通过技术如HyDE，可以改进问答检索性能，其中问题首先被转化为假设的答案，然后再进行嵌入。同样地，GPT也可以通过自动将问题转化为一组关键词或搜索术语来潜在地改进搜索结果。

以上学习通过

openai-cookbook/examples/Question_answering_using_embeddings.ipynb

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
GPT 学习笔记-让GPT基于embeddings搜索来回答问题

嵌入（Embedding）是一种将离散的符号（如词语、字符或文档）映射到连续向量空间的表示方法。它将离散的符号转换为实数向量，从而使得计算机可以更好地处理和理解文本数据。OPENAI提供内置的Embedding api，可以直接使用。
复制链接

扫一扫

woohooli CSDN认证博客专家 CSDN认证企业博客

码龄18年

63: 原创

13万+: 周排名

81万+: 总排名

55万+: 访问

: 等级

4118: 积分

163: 粉丝

20: 获赞

79: 评论

74: 收藏

私信

关注

热门文章

分类专栏

GPT学习 3篇
Python 3篇
Appium 1篇
Selenium 1篇
SOA技术 10篇
TUXEDO 6篇
Weblogic 14篇
数据集成

最新评论

最近招聘的感想
「已注销」: 感谢前辈指点
数据集成之主数据管理（一）基础概念篇
G.L88: 谢谢博主，很多东西需要一点一滴的积累，希望我的时间够用从财务准备转行主数据管理，抛开专业层面，楼主觉得，在主数据管理里，运维和数据分析哪个更合适我这样的新人
数据集成之主数据管理（一）基础概念篇
weixin_37946811: 主数据管理平台走近中小企业！中翰EDGv6.0也已于2016年底发布。即日起，中翰MDMv5.0产品实行全国统一售价：5万元人民币/套，不限制用户、服务器等数量，中翰公司服务部负责免费培训实施方法、步骤等。详情联系：0531-88199235/53。欢迎光临中国企业数据治理联盟官网www.chinaedg.com。中翰MDMv5.0中翰MDMv5.0是标准的主数据管理平台，和目前市面同类产品一样，但功能要稍多于其他品牌。我们的最高产品是高于这个主数据管理平台的企业数据治理平台，包括多了数据规划，静态数据中心，多维建模，数据保养等功能
数据集成之主数据管理（一）基础概念篇
蚂蚁学Python: 写的很棒，怎么没有后续了呢？
数据集成之主数据管理（一）基础概念篇
BBQ: 学习了，很棒，后续的有没有？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。