AI多模态场景对数据管理带来的挑战有哪些?

在数据应用场景中,数据源属于数据管理是非常的一个环节,包括数据源、数据集成、生命周期、数据地图、数据标注、数据安全、主数据等等等,数据管理也是整个数据治理体系中最核心的部分之一,面向智算领域的数据能力,对于AI数据治理会有一些新的挑战。

在过去数十年的大数据领域发展过程中,结构化数据和半结构化数据处理都是其中绝对的主角,结构化和半结构化数据由业务流程产生,与商业价值高度相关,这些数据与企业的流程业务及商业化息息相关,SAAS软件领域也逐渐演化出了非常成熟的产品及处理能力。

关于数据类型的对比

img

根据 Gartner 的数据显示,结构化和半结构化数据仅仅占到全世界数据比例的不到 20%,其他 80%以上均是非结构化数据。在过去的技术能力下,非结构化数据难以处理,价值难以被挖掘和衡量,有研究显示大量办公文档类的数据在整个生命周期内最多只被使用过 2 次,相比较其被努力创造出来的投入相比产生的价值极为有限。

img

过去数据分析场景的数据大多是结构化的数据为主,AI多模态场景中的数据大多数是非结构化数据为主。

img

数据分析场景和 AI 多模态场景中数据来源特点

  • 绝⼤部分是⾮结构化数据(例如⽂本、语⾳ / 视频、HTML ⻚⾯)
  • 更多样性的数据源,事务性关系型数据源、OLAP 类型、向量化类型、K/V 类型、对象存储类型
  • 数据体量更加庞⼤,AI 预处理数据和训推数据少则⼏⼗⼏百 TB 多则 PB 级别,相⽐⼤数据分析型⾼出数倍。

AI场景数据来源

  1. 开源数据集(例如从AI Gallery、 HuggingFace 、OpenDataLab 等等)
  2. 对象存储
  3. 其它SAAS类的第三方公司
  4. 企业自身积累数据

从数据管理角度来说,针对数据层面后续会有更多的场景能力需要支持,例如

  • 外部海量数据拉取能力(数据源管理)
  • 数据预处理(清洗、标签)
  • 数据质量评估(固定策略、模型检测)
  • 数据标注能力(自动标注、人工标注)
  • 数据分享(内外部)

img

典型大语言模型所需数据类型分布情况

img

大体上来看,可以分为如下几种类型:

  • 通用型数据(网页、书籍、论文、百科全书、代码等)
  • 领域型数据(金融、法律、医疗、教育等等)
  • 对话类型(多语言识别转化)

从数据流转到模型训练的过程

img

流程说明

1. 原数据集

原数据可以是企业数据、外部数据、开源数据等等,也由于数据的多样性,在后续的数据流转中每个环节可能接触使用的数据是不同的, 所以对于数据安全、数据审计、数据质量、数据存储、数据影响分析、数据可信、数据合法性、第三方数据集(“有毒”数据)验证等等方面都要有相关的能力支持,才能降低平台型风险。

2. 数据集成

数据集成能力是数据流入/流出的核心能力,其次在数据集成中也可以进行数据校验、规则检查、安全检测等等基础性动作。

在AI模型中,过去数据分析场景的数据集成管道的逻辑可能不太能通用,数据管道是连接原始非结构化数据和完全训练好的LLM的通道,它们确保数据得到适当的收集、处理和准备,使其准备好进入LLM构建过程的训练和验证阶段

  • 数据提取:数据从其来源提取,来源可以是数据库、数据仓库,甚至是外部 API。
  • 数据转换:原始数据需要被清理并转换为适合分析的形式。转换包括处理缺失值、纠正不一致的数据、转换数据类型或对分类变量进行独热编码。
  • 数据加载:转换后的数据被加载到存储系统,如数据库或数据仓库。然后这些数据就可以在机器学习模型中使用。

特性:

  • 异构数据同步
  • 跨云、跨环境、跨源数据同步

3. 数据准备

机器学习算法需要将原始输入数据转换为表示数据他们可以理解的形式。此数据准备步骤可能会影响安全性和ML系统的可解释性,因为数据在安全性中起着关键作用。数据准备包括如下几类:

数据清洗和格式化

  • 数据清洗和格式化包括处理缺失值或异常值,确保数据格式正确,并删除不需要的列。例如,填补缺失值、移除异常值以及将数据转换为所需的格式。

数据预处理

  • 数据预处理包括数值转换、数据聚合、文本或图像数据编码以及创建新特征等任务。这些步骤有助于将原始数据转换为适合机器学习模型的形式,提高模型的性能。

数据合并

  • 数据合并包括连接表格或合并数据集等任务。通过合并不同来源的数据,可以整合更多信息,从而更好地支持分析和建模工作。

4. 数据标注

  • 数据标注包括识别原始数据(如图像、文本文件、视频等)并添加一个或多个有意义且信息丰富的标签,以提供上下文,使机器学习模型能够从中学习。例如,在图像分类中为每张图像添加类别标签。

数据验证和可视化

  • 数据验证和可视化包括探索性数据分析,以确保数据正确且准备好用于机器学习。直方图、散点图、箱线图、折线图和条形图等可视化工具都是确认数据正确性的有用工具。这些可视化方法可以帮助识别潜在问题,并确保数据的质量和一致性。

5. 数据集

数据准备完成之后分为不同的数据集:训练集、验证集/保留集、测试集。

  • 训练集用作机器学习算法的输入。
  • 验证集用于调整超参数并监视机器学习算法过拟合。
  • 在学习完成后使用测试集来评估性能。

6. 数据目录

  • 数据组织资产的工具(多种数据源服务)
  • 审计跟踪
  • 端到端的机器学习生命周期机制
  • 模型数据的可追溯和资产透明

AI多模态对数据方面的挑战有哪些?

一方面 AI 大模型本身即是由海量非结构化的文档及多模态数据训练而成,企业可以应用自身沉淀的大量非结构化数据进行,模型训练及精调。另一方面在如 RAG 类型的技术框架的帮助下,非结构化数据可以通过AI 解析及外挂向量数据库的方式得以实现解析及结构化,用户可以轻松实现如ChatWithPdf 等类型的业务。

随着GenAI的广泛应用,非结构化和多模态数据的价值开始被重视,但是这些数据的管理和利用是目前AI系统还有很多难点:

img

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值