关于行业多模态数据汇聚及AI应用落地的思考及建议

目前,各行业、各领域在数字化平台建设过程中,积累了海量行业数据资源,不仅极大地丰富了大语言模型知识库,更为其在特定应用场景中的精准运用奠定了坚实基础。大语言模型与数据的良性互动,为其在未来的深入应用开辟了更多新的路径,推动大语言模型为代表的生成式人工智能加速发展,成为打造新质生产力的重要引擎。

然而,在推进人工智能技术与行业应用深度融合的过程中,除依赖以文本语言领域的应用为基础外,还须着眼于大语言模型语料数据和应用场景的拓展,以及全面深入汇聚行业多模态数据深入整理专家经验相关的高质量数据集

一、关于特定行业中数据汇聚和应用的难点

(一)对语料数据外的多模态数据重视不足

1、当前大语言模型的训练和应用主要集中在处理文本和语料数据上。但特定行业的数据,尤其是与业务密切相关的数据通常是数值型和结构化的,如医院ICU中的监护指标、电池充放电信号、金融信用行为的时序数据等。此类数据与文本数据有显著差异,很多特定行业的核心信息并不是单纯的文本,因此基础数据也不再是文本中的字和词,而是包含独特语义结构和关系的新型基础数据,如医药行业中的分子结构信息,金融投资行业中的交易订单的量价信息等。此类数据中蕴含了行业核心知识,需通过更加深入和细致的分析来挖掘。

2、大语言模型在处理结构化数据方面的能力相对较弱,目前尚未针对这类数据进行专门设计与优化,导致大语言模型在行业应用中基于结构化数据进行预测、决策和精确执行任务时难以达到预期的准确性。

3、未来AI Agent在行业中的应用将凸显价值。作为能够自主执行特定任务的AI智能体,在实现感知和判断所需的数据方面,如基于物联网传感器的多模态数据,还面临着数据的实时性、精度和存储时间不足问题。未来,随着AI智能体与业务流程的结合,将能够基于对环境的感知自主执行任务,并不断进行优化。比如,在工业场景中,一种基于强化学习的AI Agent,基于工厂外部环境温湿度、系统设备实时运行参数等数据的实时感知,进行HVAC(暖通空调)系统的自适应调节,以实现节能减排的目的,正是基于对工业环境数据的实时和精确感知和利用。

(二)现有汇聚数据中专家经验留存高质量数据不足

人工智能发展依赖于大量数据收集,但此类数据往往是未经清洗及标注的原始数据,其中专家经验留存标注的高质量数据相对较少。为了构建更高质量的AI算法,需记录具有行业专家专业知识沉淀的数据,此类数据不仅包含了行业知识,还蕴含了人类决策逻辑,对训练高级决策支持系统具有关键作用,缺少此类关键数据,AI算法本身难以实现训练目标,相关数据可以分为以下两类:

1、行业专家筛选和整合的数据。行业专家会根据自身经验和判断,从大量信息中筛选和整合出有价值数据或对数据进行标注,此过程实际上是专家将自身行业知识和判断力融入到数据中,如通过医生筛选和整理的高质量的病例和诊断记录,其筛选过程就是对信息价值判断,此类经过专家过滤的数据具有高度的价值。通过这种方式,专家知识得以以数据形式保存和传承。

2、基于专家经验沉淀的过程记录和反馈数据。此类数据记录了专家在实际业务流程中的决策和系统对其决策的反馈,例如在刚提到的HVAC(暖通空调)控制案例中,暖通专家的控制策略以及系统在专家操作后的反馈结果的相关数据价值性较高。此类记录对于理解和复制专家操作模式、优化系统性能至关重要。

(三)对于特定行业的核心数据获取的困难

在数据收集方面,除从公开领域和互联网上获取语料、图像和视频等信息外,获取特定行业数据是一个挑战。此类数据通常是企业在日常运营中积累的核心资产,包括文本、数值和结构化数据,是企业商业竞争力的关键,与其核心业务紧密相关,包含了商业秘密和战略信息,并涉及商业利益和数据产权。因此,出于保护商业利益和维护数据产权的考虑,企业通常对此类数据的访问和共享持谨慎态度,获取此类高价值数据变得更加困难。

二、关于行业多模态数据汇聚和应用的相关思考及建议

(一)重视多模态数据源采集和留存

1、企业和政府在构建大语言模型过程中,除语料数据的收集外,还应同等重视多模态数据源的采集与留存,特别是行业中特有的数值型和结构化的数据汇聚,其中大部分数据来源于物联网设备采集的时序数据,此类数据对于理解业务的实际运行状态至关重要

2、对于在未来构建特定领域的专有基础模型、基于大模型的RAG(检索增强生成)以及AI Agent在特定业务流程中的落地都非常重要。

(二)组织行业专家数据标注和高质量数据集构建

1、企业和政府需要召集一批具有至少五年行业经验的专家(如医生、律师和各行业工程师等),使用标注工具对数据进行精确标注或者筛选高质量数据集,将特有的专业知识和行业理解融入数据中,确保数据集的质量和实用性。

2、企业和政府相关主管部门提供专门的课题经费或预算,以资助行业专家开展数据标注工作,这对于提升数据标注的质量和效率具有至关重要意义。

3、行业专家在数据标注过程中,应重点关注和标注不同模态数据之间关联,确保数据集能够全面反映业务实际运行情况,为后续人工智能模型训练打下良好的基础。

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值