从0开始，部署私有模型，搭建企业知识库（理论篇）

最新推荐文章于 2024-07-19 17:57:29 发布

麻辣牛肉面

最新推荐文章于 2024-07-19 17:57:29 发布

阅读量742

点赞数 5

文章标签：人工智能 chatgpt 开源 AI编程 pdf

本文链接：https://blog.csdn.net/youmaob/article/details/138915172

版权

在当今信息爆炸的时代，企业和个人都需要解放双手，提高效率和降低成本。这时，打造一个个性化的AI助手会是一个不错的选择。前段时间，有不少网红和大V利用AI技术打造了自己的数字分身，甚至能和粉丝互动。另外，企业可以打造AI客服机器人，替代人工客服，从而降低成本。此外，还可以搭建企业AI知识库，让对外的合作伙伴和内部员工都能快速学习和掌握知识。这些知识库可以根据不同需求作出调整和匹配，扮演不同的角色。不管是财务分析师、智能客服还是在线问诊医生，你都可以定制一款专属于你企业的AI助手来提高工作效率和赋能员工。

是不是跟你想法一致？部署属于自己的语言模型。这样，你就能够通过自有的数据集，训练出专业、深度理解你所在行业和业务场景的语言模型。最棒的是，你还能避免用户数据可能被泄露给第三方的尴尬局面。让公司拥有自己的语言模型，对产品和业务来说可是意义非凡啊！📈

如果你也有这样的诉求，别担心！接下来的文章对你来说就是宝藏级别的存在。因为我们亲自实操过，保证切实可行，且市面上大部分企业知识库搭建方案，小编都进行了深入研究。目前，这套方案不但成本最低、效果最佳，还极其易于实施。就算是小白也能够轻松搭建一套属于自己的个性化AI助手！😉

**这套搭建企业知识库的方案已经在多个行业的公司成功落地。**比如，一家报业公司就利用这套方案打造了内部企业知识库，效果让人赞不绝口！还有一家电商公司正在利用这套方案打造智能客服系统，现在正在持续优化中。

这可是一条通往成功的道路，你也可以跟上他们的脚步，让AI助手为你开辟更广阔的业务天地！💼💪

一.为什么要搭建自己的私有模型？

我们都使用过ChatGPT，也能感受得到他的大模型能力。但是他也有自己的缺点。比如：

1.数据安全无法保证，数据都是直接发送给ChatGPT,存在泄露私有数据的风险。

2.无法做到个性化定制。每个企业或个人的要求都是独一无二的，而ChatGPT无法做到针对相同的问题，基于企业或个人的实际情况，给出更加智能个性化的回复。

更多的原因就不一一列举了，相信每个人都有一些自己的想法的。

二.基于类GPT的大模型和私有数据构建智能知识库和个性化AI的应用场景

✅ 更智能，基于ChatGPT大模型算法，回答准确，逻辑清晰
✅ 更安全，支持私有化部署，文档数据本地化，安全可控
✅ 更全面，可用于企业AI客服，企业内部知识查询&经验分享，员工自助服务，赋能企业外部合作伙伴、个人知识库等场景

基于ChatGPT和私有数据构建智能知识库可用于AI客服机器人、企业AI知识库、个人知识库等场景，可以扮演客服、销售、培训师、营销人员、行业专家等角色。通过录入文档或问答来创建知识库，让机器人学习，根据机器人训练情况可随时删除或替换文档。

三.如何构建一个个性化的垂直领域的 LLM 专属模型

1.这里补充一下目前主流的训练模型的两种方式Fine-tuning和Embedding。

(1).基本概念

•Fine-tuning（微调）：Fine-tuning是指在预训练模型的基础上，使用特定的任务数据对模型进行重新训练，以适应具体的应用场景或任务。通常，预训练模型通过大规模数据集进行事先训练，获得了广泛的语言理解和生成能力。而Fine-tuning则是在此基础上，针对特定任务的数据集进行进一步训练，以使模型更好地适应该任务，并提高其性能。通过Fine-tuning，可以使模型更加专业化，提高在具体任务上的准确性和效果。

•Embedding（嵌入）：Embedding是将高维的离散数据转化为低维连续向量表示的过程。在自然语言处理中，Word Embedding是一种常见的技术，将词汇表中的单词映射为实数向量。这些向量在低维空间中对应着单词的语义信息，使得计算机可以更好地理解和处理文本数据。通过将词汇嵌入到低维向量空间中，可以捕捉到单词之间的关联和语义相似性，从而使得模型能够更好地进行语言理解和相关任务。

•在使用GPT模型进行自然语言处理任务时，通常会先进行预训练得到一个通用的语言模型，然后根据具体的任务数据对模型进行Fine-tuning，使其适应特定任务的需求。同时，模型将单词和文本嵌入到低维向量空间中，用于表示和处理文本数据，从而提高模型的语义理解能力和任务性能。Fine-tuning和Embedding可以共同帮助模型更好地适应特定任务，并提升模型在该任务上的表现。

(2).Fine-tuning和Embedding的区别

•微调就像你通过学习准备考试，是一种长期记忆，但过了一周后考试来临，模型可能会忘记袭击，或者记错它从来没有读过的事实。

•嵌入就像记笔记，是一种短期记忆，当考试的时候，你把笔记带上，随时翻看笔记，对于笔记上有的内容可以得到准确的答案。

•另外嵌入的搜索提问方式相对于微调有一个缺点就是它每次附带的文本数量是有限制的，因为除了原始的问题，它还需要带上搜索出来的问题，GPT-3.5是4K（大约5页），GPT-4最大是32K（大约40页）。
就好比你有成书的教科书可以借鉴，但每次却只能翻看其中几页笔记。

•如果你想构建一个对大量文本问答的系统，OpenAI建议“搜索-问”（Search-Ask）的方法。
也就是先在本地文档库中Search，拿到本地的数据结果，再去Ask，把搜索结果和问题一起交给GPT，这样GPT可以根据你提供的内容以及它模型中的数据，一起将结果返还给你。

(3).Fine-tuning和Embedding的适用场景

Fine-tuning和Embedding是两种完全不同的技术，各自适用于不同的场景。Fine-tuning更适合于教授模型新的任务或模式，而不是新的信息。例如，你可以使用Fine-tuning来训练模型生成特定风格的文本，或者执行特定的NLP任务。然而，Fine-tuning并不适合于作为知识存储，也不适合于问答任务。

相反，语义搜索或Embedding则非常适合于问答任务。你可以使用语义搜索来快速找到相关的文档，然后使用大型语言模型来生成答案。此外，与Fine-tuning相比，语义搜索更快、更容易，也更便宜。

因此，如果你的目标是创建一个问答系统，或者你需要在大量的数据中快速找到相关的信息，那么你应该考虑使用语义搜索和Embedding。然而，如果你的目标是教模型执行特定的任务，比如生成特定风格的文本，那么你可能会发现Fine-tuning更有用。

一句话总结，两种技术的使用场景：

我有一堆语料，想让 GPT-3 依据我的语料输出内容 - 使用 embedding

想让 GPT-3 模仿一个温柔贤惠的女人和我对话 - 使用 fine-tune

希望用户按照一定格式提交问题 - 使用 fine-tune

可以根据产品的使用手册来回答用户的问题 - 使用 embedding

从上面的内容可以看出，如果我们要做一个问答系统或者企业个人知识库还是需要用Embedding（嵌入）的方式进行训练。

(5).如何让 LLM 读取大文本呢？

假设你有一个巨大的 PDF 文件，你很懒不想读整个文件，而且你也不能把整个文件复制进去，因为它超过了一亿页，怎么办？

我们可以利用向量 Embedding 的优势来将相关文本注入 LLM 上下文窗口。对 PDF 进行向量 Embedding 并将其存储在向量数据库中。

2.Embedding训练流程

项目实现原理如下图所示，过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到 prompt 中 -> 提交给 LLM 生成回答。

目前市面上最流行的使用LangChain+ChatGLM搭建专属模型的训练流程，市面上其他的搭建流程思路都是大同小异，基本都是一个大模型的调用框架（如上面的LangChain）+一个大模型（如ChatGLM）。为什么要怎么做呢？

因为LLM生成结果的不确定性和不准确性，目前还无法仅依靠LLM提供智能化服务。因此，需要LangChain这样的大模型调用框架，其主要目标是将LLM与开发者现有的知识和系统相结合，以提供更智能化的服务。

由于很多朋友对专属模型这块了解不多，这里花一点时间对LangChain和ChatGLM做一下介绍，如果对这块了解的朋友可直接跳过。

LangChain：

LangChain是一个用于开发基于语言模型的应用程序开发框架。总的来说，LangChain是一个链接面向用户程序和LLM之间的一个中间层。

它在 2023 年 3 月获得了 Benchmark Capital 的 1000 万美元种子轮融资，在近期又拿到了红杉2000-2500万美金的融资，估值已经提升到了2亿美金左右。

LangChain 可以轻松管理与语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。其组件包括了模型（各类LLM），提示模板（Prompts），索引，代理（Agent），记忆等等。

前段时间GitHub上的热门项目Auto-GPT和Babyagi所使用的链式思考能力都是由LangChain启发而来。

ChatGLM：

ChatGLM是国内知名的AI公司智谱AI研发的生成式大语言模型。智谱AI是由清华大学计算机系技术成果转化而来的公司，致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型GLM-130B，并构建了高精度通用知识图谱，形成数据与知识双轮驱动的认知引擎，基于此模型打造了ChatGLM（chatglm.cn）。此外，智谱AI还推出了认知大模型平台Bigmodel.ai，包括CodeGeeX和CogView等产品，提供智能API服务，链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座，赋予机器像人一样“思考”的能力。

智谱AI的目标是：让每个人都能用上千亿模型，目标纯粹且让人敬佩。

我们的例子里使用的是ChatGLM-6B 作为预训练模型，ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。之所以选用ChatGLM-6B，一方面是它的中文支持效果好，另一方面是它的参数是 62 亿，对 GPU 性能要求相对较低，可以压缩成本。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-