基于 PolarDB PostgreSQL 版和 LLM 构建企业专属 Chatbot

阿里云云栖号

于 2023-08-21 12:59:55 发布

阅读量550

点赞数

分类专栏：云栖号技术分享文章标签： postgresql 数据库云计算阿里云

本文链接：https://blog.csdn.net/yunqiinsight/article/details/132404895

版权

随着ChatGPT的问世，人们开始认识到大语言模型（LLM，Large language model）和生成式人工智能在多个领域的潜力，如文稿撰写、图像生成、代码优化和信息搜索等。LLM已成为个人和企业的得力助手，并朝着超级应用的方向发展，引领着新的生态系统。本文介绍如何基于PolarDB PostgreSQL版向量数据库和LLM构建企业专属Chatbot。

背景信息

越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前，大语言模型在处理通用问题方面表现较好，但由于训练语料和大模型的生成限制，对于垂直专业领域，则会存在知识深度和时效性不足的问题。在信息时代，由于企业的知识库更新频率越来越高，并且企业所拥有的垂直领域知识库（例如文档、图像、音视频等）往往是未公开或不可公开的。因此，对于企业而言，如果想在大语言模型的基础上构建属于特定垂直领域的AI产品，就需要不断将自身的知识库输入到大语言模型中进行训练。

目前有两种常见的方法实现：

微调（Fine-tuning）：通过提供新的数据集对已有模型的权重进行微调，不断更新输入以调整输出，以达到所需的结果。这适用于数据集规模不大或针对特定类型任务或风格进行训练，但训练成本和价格较高。
提示调整（Prompt-tuning）：通过调整输入提示而非修改模型权重，从而实现调整输出的目的。相较于微调，提示调整具有较低的计算成本，需要的资源和训练时间也较少，同时更加灵活。

综上所述，微调的方案投入成本较高，更新频率较低，并不适合所有企业。提示调整的方案是在向量库中构建企业的知识资产，通过LLM+向量库构建垂直领域的深度服务。本质是利用数据库进行提示工程（Prompt Engineering）将企业知识库文档和实时信息通过向量特征提取然后存储到向量数据库，结合LLM可以让Chatbot的回答更具专业性和时效性，也更适合中小型企业构建企业专属Chatbot。

在机器学习领域，为了能够处理大量的非结构化的数据，通常会使用人工智能技术提取这些非结构化数据的特征，并将其转化为特征向量，再对这些特征向量进行分析和检索以实现对非结构化数据的处理。将这种能存储、分析和检索特征向量的数据库称之为向量数据库。

基于PolarDB PostgreSQL版构建的ChatBot的优势如下：

借助PolarDB PostgreSQL版的PGVector插件，可以将实时内容或垂直领域的专业知识和内容转化为向量化的embedding表示，并存储在PolarDB PostgreSQL版中，以实现高效的向量化检索，从而提高私域内容的问答准确性。
作为新一代关系型云原生数据库，PolarDB PostgreSQL版既拥有分布式设计的低成本优势，又具有集中式的易用性。实现了计算节点及存· 储节点的分离，提供即时生效的可扩展能力和运维能力。在云原生分布式数据库领域整体处于国际领先水平。
PGVector插件目前已经在开发者社区以及基于PostgreSQL的开源数据库中得到广泛应用，同时ChatGPT Retrieval Plugin等工具也及时适配了PostgreSQL。这表明PolarDB PostgreSQL版在向量化检索领域具有良好的生态支持和广泛的应用基础，为用户提供了丰富的工具和资源。

重要
本文提到的“大型语言模型（LLM）”来自第三方（统称为“第三方模型”）。阿里云无法保证第三方模型的合规性和准确性，也不对第三方模型以及您使用第三方模型的行为和结果承担任何责任。因此，在访问或使用第三方模型之前请进行评估。另外，我们提醒您，第三方模型附带有“开源许可”、“许可证”等协议，您应仔细阅读并严格遵守这些协议的规定。