搭建大模型知识库教程！应用实例分享

最新推荐文章于 2025-04-14 13:53:35 发布

程序员二飞

最新推荐文章于 2025-04-14 13:53:35 发布

阅读量1.8k

点赞数 32

文章标签：语言模型人工智能自然语言处理 chatgpt

本文链接：https://blog.csdn.net/xiangxueerfei/article/details/143787723

版权

“ RAG检索增强生成是为了解决大模型知识不足的问题 ”

大模型主要面临三个问题：

垂直领域内的知识不足‍‍‍‍‍

大模型知识有时间限制‍

大模型幻觉问题

前排提示，文末有大模型AGI-CSDN独家资料包哦！

第一个问题产生的原因是因为，没有经过垂直领域数据训练的大模型普遍表现不好；其次是目前的大模型采用的是预训练模式，也就是说需要先收集训练数据进行训练，但只能收集之前的数据，不能收集当前和以后的数据；最后就是大模型幻觉问题，幻觉问题产生的原因就是知识不足，导致在一些领域问题中一本正经的胡说八道。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

因此，说到底大模型产生以上三个问题的主要原因就是知识不足，因此RAG——检索增强生成技术就出现了。‍‍‍‍‍‍‍‍‍‍‍

RAG技术配合知识库技术，就能够补充大模型知识不足的问题，知识库的作用就相当于给大模型配置一个资料室，遇到不懂的就去资料室里查。

今天，我们就来讨论一下本地知识库的实现步骤，以及代码。‍‍‍‍‍‍‍‍‍‍‍

知识库的实现步骤及代码‍‍‍‍‍‍‍‍‍

严格来说，解决大模型知识不足问题的技术是RAG——检索增强生成，而不是知识库技术。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

知识库技术在大模型之前就已经出现了，简单来说就是公司内部的文档系统，里面记录了企业内部的资料，文档等，形式可以是一个web系统，甚至就是一个文件夹。‍‍

而我们今天说的大模型知识库是基于RAG技术，结合知识库技术产生的一个变种，主要区别就是数据格式问题。

RAG文档检索生成，就是通过把资料向量化，并为了提升查询效率需要把向量化的文档存入到向量数据库，然后每次在问大模型之前，先去向量数据库中查询与问题相关的内容，通过提示词的方式一并传入到大模型中，这样就可以解决大模型知识不足的问题。

之所以要把资料向量化的原因是，在传统的查询搜索过程中，使用的主要是基于字符匹配的方式进行查询，比如说你想查询西红柿炒蛋的做法，查询的内容中就必须包含西红柿和炒蛋这几个字。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

而有了大模型技术，把资料向量化之后，就可以通过语义进行查询，大模型会根据语义分析，知道西红柿和番茄是一个东西。‍‍‍

大模型知识库的原理就是给大模型外挂一个资料库，但大模型毕竟不是人，需要把资料，文档等转化为大模型能够识别的格式，就是文档向量化。

搭建大模型知识库，需要经过以下几个步骤：

文档加载

在当今互联网时代，知识的形式多种多样，比如文本格式的就是txt，word，pdf等；还有其它格式如图片，结构化数据以及非结构化数据等。‍‍‍‍‍‍‍‍‍‍‍

因此，打造一个知识库需要支持多种文档，以及不同文档的加载路径，如本地加载，网络加载等；而这就是文档加载需要解决的问题。‍

文档分割

在大模型应用中，长文本处理是一个问题，并且大模型窗口都有上下文长度限制；并且，文档还需要处理成大模型能够识别的向量格式，因此对一些长文本文档需要进行文本分割，解决文档过长而导致的问题。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档分割根据不同的任务场景，需要进行不同的处理，比如文档分割的长度，分割形式(比如，段落，标点符号等)，重叠长度等。‍‍‍‍‍

词嵌入

在传统的知识库系统中，文档是以文本，图片，视频等格式存在的，使用者主要是人，因此只需要能够通过网络加载文档即可。

但在大模型应用中，大模型不认识字，它能够处理的格式只有向量。而且，还需要进行语义分析，因此需要通过词嵌入的方式，把文档转化为大模型能够处理的，且语义连贯的形式，也就是向量格式，而这个技术就叫做词嵌入。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

词嵌入工具本质上也是一个大模型，只不过是专门训练用来完成语义理解和向量转化的模型。‍

Sentence-transformer 词嵌入python 库可以支持多种嵌入模型或者可以使用第三方提供的转化工具，比如openAI，通义千问等。

文档处理整体流程入下图所示：‍‍‍‍‍

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档存储

文档存储的功能就是需要把通过词嵌入转化的大模型能够识别的向量格式存储起来，一般使用的是向量数据库。‍‍‍‍

当大模型需要使用的时候，再通过检索的形式从向量数据库中获取。‍‍‍‍‍‍‍

文档存储的作用是为了解决查询效率的问题，但也并不是必须的；比如说，当你知识库的内容很少的时候，你也可以选择每次提问的时候，重新加载文档并向量化，这样之前向量化过的文档就存储在向量数据库中，下次使用的时候就可以直接从数据库中查询。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

就类似于在web开发中，你也可以把用户数据通过｜或某种符合间隔起来并保存到txt文件中，每次查询的时候需要读取文件并解析数据，这样就会非常的麻烦；而如果把用户信息存储到数据库中，就会方便的多。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文档检索

从向量数据库中，通过语义对数据进行检索，然后把检索结果带入到大模型中，供大模型使用。技术实现是通过数学计算，根据向量计算相对位置，位置越近语义相关度越高；比如欧式距离，cos值等。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

RAG的难点和重点是数据的质量和检索质量，也就是说本地知识库的好坏和使用的模型(用来回答问题的模型，不是词嵌入的模型)没有什么关系，只是和你检索的效果有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

简单来说就是，你的知识库数据质量和向量数据库的质量越好，RAG的效果才越好。‍‍‍‍‍‍

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓