AI多模态场景对数据管理带来的挑战有哪些？_多模态大模型少量数据挑战-CSDN博客

本文链接：https://blog.csdn.net/xx_nm98/article/details/147340950

在数据应用场景中，数据源属于数据管理是非常的一个环节，包括数据源、数据集成、生命周期、数据地图、数据标注、数据安全、主数据等等等，数据管理也是整个数据治理体系中最核心的部分之一，面向智算领域的数据能力，对于AI数据治理会有一些新的挑战。

在过去数十年的大数据领域发展过程中，结构化数据和半结构化数据处理都是其中绝对的主角，结构化和半结构化数据由业务流程产生，与商业价值高度相关，这些数据与企业的流程业务及商业化息息相关，SAAS软件领域也逐渐演化出了非常成熟的产品及处理能力。

关于数据类型的对比

根据 Gartner 的数据显示，结构化和半结构化数据仅仅占到全世界数据比例的不到 20%，其他 80%以上均是非结构化数据。在过去的技术能力下，非结构化数据难以处理，价值难以被挖掘和衡量，有研究显示大量办公文档类的数据在整个生命周期内最多只被使用过 2 次，相比较其被努力创造出来的投入相比产生的价值极为有限。

过去数据分析场景的数据大多是结构化的数据为主，AI多模态场景中的数据大多数是非结构化数据为主。

数据分析场景和 AI 多模态场景中数据来源特点

绝⼤部分是⾮结构化数据（例如⽂本、语⾳ / 视频、HTML ⻚⾯）
更多样性的数据源，事务性关系型数据源、OLAP 类型、向量化类型、K/V 类型、对象存储类型
数据体量更加庞⼤，AI 预处理数据和训推数据少则⼏⼗⼏百 TB 多则 PB 级别，相⽐⼤数据分析型⾼出数倍。

AI场景数据来源

开源数据集（例如从AI Gallery、 HuggingFace 、OpenDataLab 等等）
对象存储
其它SAAS类的第三方公司
企业自身积累数据

从数据管理角度来说，针对数据层面后续会有更多的场景能力需要支持，例如

外部海量数据拉取能力（数据源管理）
数据预处理（清洗、标签）
数据质量评估（固定策略、模型检测）
数据标注能力（自动标注、人工标注）
数据分享（内外部）

典型大语言模型所需数据类型分布情况

大体上来看，可以分为如下几种类型：

通用型数据（网页、书籍、论文、百科全书、代码等）
领域型数据（金融、法律、医疗、教育等等）
对话类型（多语言识别转化）

从数据流转到模型训练的过程

流程说明

1. 原数据集

原数据可以是企业数据、外部数据、开源数据等等，也由于数据的多样性，在后续的数据流转中每个环节可能接触使用的数据是不同的，所以对于数据安全、数据审计、数据质量、数据存储、数据影响分析、数据可信、数据合法性、第三方数据集（“有毒”数据）验证等等方面都要有相关的能力支持，才能降低平台型风险。

2. 数据集成

数据集成能力是数据流入/流出的核心能力，其次在数据集成中也可以进行数据校验、规则检查、安全检测等等基础性动作。

在AI模型中，过去数据分析场景的数据集成管道的逻辑可能不太能通用，数据管道是连接原始非结构化数据和完全训练好的LLM的通道，它们确保数据得到适当的收集、处理和准备，使其准备好进入LLM构建过程的训练和验证阶段

数据提取：数据从其来源提取，来源可以是数据库、数据仓库，甚至是外部 API。
数据转换：原始数据需要被清理并转换为适合分析的形式。转换包括处理缺失值、纠正不一致的数据、转换数据类型或对分类变量进行独热编码。
数据加载：转换后的数据被加载到存储系统，如数据库或数据仓库。然后这些数据就可以在机器学习模型中使用。

特性：

异构数据同步
跨云、跨环境、跨源数据同步

3. 数据准备

机器学习算法需要将原始输入数据转换为表示数据他们可以理解的形式。此数据准备步骤可能会影响安全性和ML系统的可解释性，因为数据在安全性中起着关键作用。数据准备包括如下几类：

数据清洗和格式化

数据清洗和格式化包括处理缺失值或异常值，确保数据格式正确，并删除不需要的列。例如，填补缺失值、移除异常值以及将数据转换为所需的格式。

数据预处理

数据预处理包括数值转换、数据聚合、文本或图像数据编码以及创建新特征等任务。这些步骤有助于将原始数据转换为适合机器学习模型的形式，提高模型的性能。

数据合并

数据合并包括连接表格或合并数据集等任务。通过合并不同来源的数据，可以整合更多信息，从而更好地支持分析和建模工作。

4. 数据标注

数据标注包括识别原始数据（如图像、文本文件、视频等）并添加一个或多个有意义且信息丰富的标签，以提供上下文，使机器学习模型能够从中学习。例如，在图像分类中为每张图像添加类别标签。

数据验证和可视化

数据验证和可视化包括探索性数据分析，以确保数据正确且准备好用于机器学习。直方图、散点图、箱线图、折线图和条形图等可视化工具都是确认数据正确性的有用工具。这些可视化方法可以帮助识别潜在问题，并确保数据的质量和一致性。

5. 数据集

数据准备完成之后分为不同的数据集：训练集、验证集/保留集、测试集。

训练集用作机器学习算法的输入。
验证集用于调整超参数并监视机器学习算法过拟合。
在学习完成后使用测试集来评估性能。

6. 数据目录

数据组织资产的工具（多种数据源服务）
审计跟踪
端到端的机器学习生命周期机制
模型数据的可追溯和资产透明

AI多模态对数据方面的挑战有哪些？

一方面 AI 大模型本身即是由海量非结构化的文档及多模态数据训练而成，企业可以应用自身沉淀的大量非结构化数据进行，模型训练及精调。另一方面在如 RAG 类型的技术框架的帮助下，非结构化数据可以通过AI 解析及外挂向量数据库的方式得以实现解析及结构化，用户可以轻松实现如ChatWithPdf 等类型的业务。

随着GenAI的广泛应用，非结构化和多模态数据的价值开始被重视，但是这些数据的管理和利用是目前AI系统还有很多难点：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述