大模型LLM在数据领域应用的探索

大模型官方资料

于 2024-07-27 14:59:24 发布

阅读量514

点赞数 20

文章标签：语言模型自然语言处理人工智能

本文链接：https://blog.csdn.net/xzp740813/article/details/140735582

版权

前言

随着以ChatGPT为代表的智能问答机器人的横空出世，大模型在各个行业和业务场景下的应用需求也随即爆发。大模型成为企业数据体系中不可或缺的一部分，为企业数字化、智能化的发展提供良好的机遇和动力。本文从以下四个方面介绍大模型在数据领域应用的思路：

利用Embedding优化语义检索
搭建领域知识库，提供私域问答
Text2SQL代码生成，结果可视化
数据集探索性数据分析EDA

1. 利用Embedding优化语义检索

对于搜索问题，我们可以利用GPT模型做些什么优化呢？对于自研搜索功能，往往是基于ElasticSearch这个开源技术来实现，而ES底层的搜索原理则是先分词，然后再进行倒排索引。

试想一下场景，我们在使用数据地图或指标查询时，指标预存信息为“欠款金额”，而我们搜索的指标为“未还款金额”，虽然语义上很接近，但是ES的分词词典中并没有“未还款”，匹配不上，会导致我们搜索不到指标信息。为了提升搜索效果，通常会给ES配置同义词表，把预存的指标信息和开发、业务人员常使用的指标名称做同义词配置，提高查询效果。

而基于Embedding进行语义检索的过程大致如下：

1. 对预存指标信息生成语义向量（Embedding），存入向量数据库作为基准；

2. 将用户搜索指标信息向量化后，检索向量数据库；

3. 计算两者之间的向量距离（如余弦相似度距离），找出与用户搜索词最近的几个向量。

那最近的几个向量，其实就是语义和搜索词相似的，而并不一定需要相同的关键词。

2. 搭建领域知识库，提供私域问答

通常我们遇到以下场景会考虑搭建本地知识库：

1. 我们所需的行业知识比较专业，大模型不能确保准确、高效的提供；

2. 在利用大模型能力的过程中，我们内部的数据跟环境不能对外暴露，需完全可控，避免任何的数据隐私泄露以及安全风险。

该需求比较普遍，通常采用Embedding + 向量检索引擎 + LLM 的方式，处理过程流程如下：

处理的过程包括：

1. 先将原始文档中的文本内容全部提取出来。然后根据语义切块，切成多个chunk，可以理解为可以完整表达一段意思的文本段落。在这个过程中还可以额外做一些元数据抽取，敏感信息检测等行为。

2. 将这些Chunk都丢给embedding模型，来求取这些chunk的embedding。

3. 将embedding和原始chunk一起存入到向量数据库中。

问题提炼：这个部分是可选的，之所以存在是因为有些问题是需要依赖于上下文的。因为用户问的新问题可能没办法让LLM理解这个用户的意图。

向量检索：独立问题求取embedding这个功能会在text2vec模型中进行。在获得embedding之后就可以通过这个embedding来搜索已经事先存储在向量数据库中的数据。

推理求解：在获得最相关的知识之后，我们就可以让LLM基于最相关的知识和独立问题来进行求解推理，得到最终的答案。

3. Text2SQL代码生成，结果可视化

大模型可以根据自然语言输入快速生成SQL代码片段，并通过可视化的方式展示结果，从而协助数据人员的日常工作。这减少了编写复杂查询所花费的时间，因此可以投入更多时间来理解业务和分析查询结果，以此从数据结果中获取决策支持。

可以通过大模型创建一个 SQL 查询来获取一组特定的数据，例如：“显示 2022 年每月的平均收入。”

大模型可以将其转换为 SQL 查询，如下：

SELECT AVG(revenue) AS average_revenue, MONTH(date) AS month``FROM sales``WHERE YEAR(date) = 2022``GROUP BY MONTH(date);

集成可视化功能后的效果图如下：

4. 数据集探索性数据分析EDA

数据分析师在分析之前往往需要花费大量时间准备和清理数据。利用大模型可以提供数据预处理技术，如处理缺失值、处理异常值、变量相关性分析以及解决用户数据质量问题的建议。通过数据预处理建议，有助于简化数据准备过程，并确保分析质量。该能力属于大模型的通用基础能力。

总结

本文简要介绍了大模型LLM在数据领域应用的思路，具体方案会在后续专题中逐步展开。大模型的快速发展为企业数据体系带来了新机遇，企业思考在数据治理、数据安全、数据整合、数据分析与挖掘以及业务应用等方面，通过大模型应用来提高生产力。随着OpenAI开发者大会召开，ChatGPT使用成本也逐步降低，并且国产大模型百花齐放，模型效果逐渐提高，将助力大模型应用在各行各业中大放异彩。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

大模型官方资料

关注

20
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
大模型LLM在数据领域应用的探索

随着以ChatGPT为代表的智能问答机器人的横空出世，大模型在各个行业和业务场景下的应用需求也随即爆发。大模型成为企业数据体系中不可或缺的一部分，为企业数字化、智能化的发展提供良好的机遇和动力。本文从以下四个方面介绍大模型在数据领域应用的思路：利用Embedding优化语义检索搭建领域知识库，提供私域问答Text2SQL代码生成，结果可视化数据集探索性数据分析EDA。
复制链接

扫一扫