吴恩达LangChain教程:Embedding与文档解析

当前有很多应用想要实现根据文档或者文本内容实现用户问答,或者实现多轮会话能力,这时候就会使用到Embedding的能力。

01 | 使用类介绍

想要依据Embedding实现文本检索,需要引入如下的依赖。

图片

其中,RetrievalQA的作用是对一些文档进行检索,CSVLoader将用于加载一些我们与LLM结合的以CSV格式存在的专有数据,DocArrayInMemorySearch是一种向量存储,也是一种内存中的向量存储,不需要连接到任何外部数据库。

案例中提供了一个户外服装数据的CSV,使用CSVLoader实现数据加载。

图片 然后引入VectorstoreIndexCreator实现简单的创建向量存储的能力。创建代码如下:

图片

相当简单的就创建了一个内存的向量存储,这时候就可以直接提问了。

图片

如果要展示结果,可以用如下的MarkDown格式进行数据展示。

图片

使用如上的命令,我们可以拿到所有具有防晒功能的衣服合集,并且还有一个LLM提供的简洁概要。

02 | Embedding

图片

我们的目标很明确,就是要将LLM与我们的文档进行结合,但是LLM每次只能检查几千个词或者说Token,但是面对大量的文本数据,我们这时候就需要Embedding和向量存储来实现我们的需求功能了。

Embedding可以认为是一组文本用向量表征的值,如果两个词或者两段文本之间的向量距离比较小(或者说比较接近),我们就说这两个文本或者词语之间含义接近,这就能够让我们能够在向量空间中比较文本片段。

图片

如图所示,前两个句子都是讨论宠物的内容,在向量距离上比较接近,第三句话是讨论汽车的内容,和前两句话相关性较小。

因此,使用向量存储和向量比较,我们可以快速找到相似含义的文本片段,在考虑传递给LLM以回答问题的文本片段时非常有用。

03 | Vector Database

一个向量数据库是存储我们在前一步中创建的这些向量表示的一种方式,我们创建这个向量数据库的方式是将其中的文本块填充为来自输入文档的块。

当我们获得一个大的输入文档时,我们首先要将其分解为较小的块,这有助于创建比原始文档更小的文本片段,这个对于我们帮助很大,因为我们可能无法将整个文档传递给语言模型。我们可以通过分解后较小的块,让我们只传递与提问最为相关的部分给到语言模型。

我们为每个这些块创建一个Embedding,并将其存储在向量数据库中,这个就是创建索引时发生的情况。

利用这个向量数据库,当一个查询进来时,我们首先为该查询创建一个Embedding, 然后将其与向量数据库中所有向量进行比较,并选择最为相似的前N个,然后将其返回作为提示传递给LLM,以获得最终的答案。

图片

04 | 向量数据库与LLM结合

上面介绍了向量库,实际上还是要和我们的LangChain结合,实现我们需要的功能。

图片

和之前的逻辑一样,我们先使用CSVLoader将我们的csv格式的文件进行加载,之后我们就可以使用docs[n]查看第n个产品的详细信息。

上面的文档已经比较小了,因此,案例中并没有给到切分的逻辑,而是直接执行下一步的Embedding,实际上,切分逻辑也比较简单,只需要按照合适的大小,对超过大小的内容进行切分为不同的多个块即可。

图片

上图就是案例中的Embedding的代码逻辑,其中的len(embed)就是查看每个文本的向量化阶,案例中表示的是,每个文本使用了1536个浮点数的向量值组成的向量进行表征。

这时候,我们将我们传入的csv文件进行Embedding:

db = DocArrayInMemorySearch.from_documents(
    docs,    
    embeddins
)

这样,向量存储库就已经创建完成,我们就可以使用这个向量库根据查询返回对应文本片段。

图片

如上我们可以使用向量库的相似查询,根据用户的提问,返回含义很是接近的4个文本数据。

如果我们想要使用LangChain实现向量查询的能力,首先我们需要从这个向量存储创建一个检索器。检索器是一个通用接口,可以由接受查询并返回文档的任何方法支持。向量存储和Embedding就是这样一种方法,尽管有很多不同的方法,有些不太先进,有些更先进。

图片

如果我们执行如下的命令:

qdocs="".join([docs[i].page_content for i in range(len(docs))])

我们会将文档中所有的页面内容连接到一个变量中,然后将这个变量或者问题的变体进行传递,例如,请在表格中列出所有的搜索,并使用markdown将每个搜索汇总到语言模型中。

response=llm.call_as_llm(f"{qdocs} Question: Please list all your \
shirts with sun protection in a table in markdown and summarize each one.")

这时候我们打印出结果就可以看到完全符合我们要求的表格数据。

图片

因此,所有这些步骤都可以用LangChain封装。

qa_stuff = RetrievalQA.from_chain_type(llm=llm,
                            chain_type="stuff",                            
                            retriever=retriever,                            
                            verbose=Ture                           
                           )

图片

或者,我们可以直接使用Chain的方式进行输出:

图片

图片

Map_reduce方法基本上需要所有的块,将它们与问题一起传递给语言模型,返回响应,然后使用另一个语言模型调用将所有单个响应汇总为最终答案。

图片

Map-reduce最大的魅力就是,他可以对任意数量的文档进行操作,只要能够切分,并且切分后的文档意义完整即可,甚至可以并行处理问题,但是也存在一定的问题,那就是需要更多的调用,并且需要将所有的文档视为独立的,这可能并不总是最理想的事情。

refine精炼

还有一种方式就是精炼refine,也是用于循环遍历许多文档,但它实际上是迭代进行的,它建立在上一份文件的答案之上,这对于组合信息和随着时间的推移建立答案非常有用。

图片

正因为是串行,因此,它通常需要更长的执行时间,并且基本上需要和map-redu ce差不多的调用。

Map-rerank

图片

Map-rerank是一个非常有趣并且更具实验性的工具,可以对每个文档的LLM执行一次调用,还可以要求它返回一个分数,并且选择最高分。但是这依赖于LLM知道分数应该是多少,因此,需要在prompt中告知LLM,如果它和文档相关并真正完善,它应该是一个高分之类的说明。

05 | 小结

Embedding主要是在LangChain比较繁琐的应用开发领域使用,主要应用有两个:

  • 与大文本相关的领域应用,比如说文本理解或者文档问答;
  • 多轮会话,如果想要保留用户的历史所有会话内容,那么可以根据用户当前的提问从向量数据库中获取最为相关的N条问题以及回复,来实现更为有效的会话实现。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值