大模型在数据治理领域的应用实践与前景

2024年6月19日,信安数据通过中国日报等多家媒体渠道正式发布了国内首个数据治理“数字人”——数灵童,标志着大模型应用到数据治理领域已不仅仅是问答对话和文本生成,而是开始进入到数据治理的日常事务中,正在创造数据治理的新范式。作为“数灵童”产品孵化的亲历者和参与者,笔者今天抛开产品不谈,主要还是宏观的来探讨一下大模型在数据治理领域的可行性、应用价值和未来发展前景。

一、长期以来,数据治理领域存在多种痼疾无法根除

数据治理自上世纪八十年代兴起以来,发展已近半个世纪,其基本的理论框架、工作模式以及技术支撑体系也沿袭至今,并没有太多根本性的改变。随着数字化时代的到来,如今的数据量与当年早已不可同日而语,传统的数据治理模式和技术支撑体系也就越来越“力有不逮”,不少“痼疾”长期无法解决,反而制约了数据治理的实际成效。

例如,传统数据治理人工依赖度高,即使拥有技术平台,人工成本投入仍旧非常巨大。比如,元数据采集时,业务元数据和管理元数据基本完全依赖企业内部技术和业务人员进行人工补充,人工投入巨大,时间周期很长,交付质量因人而异,持续性管理效率低、效果差。

再如,传统数据治理专家依赖度也很高,遇到好的专家事半功倍,遇到不好的专家事倍功半。很多企业请的外部数据治理专家的知识也很难有效传递,一旦专家离开,许多工作就不知道应该如何开展了。

此外,传统数据治理平台也一直存在着技术门槛高、学习成本高、业务友好度差、功能操作复杂等问题,导致业务用户在理解和操作的过程中体验较差,久而久之就只有技术人员自己才能使用了。

想要解决这些问题,如果还是延续传统的数据治理模式的条条框框,肯定是无法有效突破的。这时,我们就需要寻找一种全新的模式,引入一种全新的技术路线,才能真正取得突破。

二、大模型的出现为解决数据治理领域痼疾提供了新思路

2022年11月, Open AI推出人工智能聊天机器人ChatGPT,如同“平地一声雷”,仿佛让人类瞬间加速跨入了通用人工智能时代的大门。Chat GPT发布不到一周就聚集了超过100万用户,2月后月活跃用户更是迅速突破一亿。2024年2月15日视频生成模型Sora的横空出世,2024年3月Cognition AI推出全球首个AI程序员Devin,不得不承认,有个大模型的加持,通用人工智能时代正在加速到来。

因此,从去年开始,我们就已经一直在想,既然那么多的行业都在用大模型,那么大模型可以为数据治理做些什么呢?要回答这个问题,我们首先还是要回到本源,大模型到底是什么?它又擅长做什么?

从基本定义来看,大模型是指包含超大规模参数(通常在十亿个以上)和复杂计算结构的神经网络模型。所以说,大模型本质上是一个使用海量数据训练而成的深度神经网络模型,基于其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。但是,这里提到的“智能的涌现”是一个完全“没谱”的事情,经过了海量的数据学习训练之后,有可能会出现的“灵光乍现”,现阶段以此为追求并不现实。我们认为,当前阶段,大模型主要擅长的是分析、推理以及文本生成等能力。相对的,由于通用大模型容易出现幻觉、长期记忆缺乏、专业知识缺乏、输出结果不稳定等一系列问题,想要让它去承担企业内部专业工作的全过程规划和执行显然有些“强人所难”。这些短板,目前还是需要通过智能体(AI Agent)还进行控制和补充。“大模型+智能体”这种组合也是目前各个行业应用大模型的一种最普遍、最有效的解决方案。

回到一开始的问题,大模型可以为数据治理做些什么呢?我认为主要有以下五个方面。一是利用大模型实现数据治理流程自动化,降低人力成本;二是利用大模型积累数据治理专业知识,破除业务专业壁垒和传递难题;三是利用大模型串接功能和工具,实现极简配置;四是利用大模型提供交互式操作模式,提高用户试用便捷度和友好度;五是利用大模型变革传统平台功能竖井架构,横向快速拓展新场景。可见,大模型对数据治理带来的改变将会是全方位的,可以称得上是数据治理行业有史以来最深刻、最彻底的一次变革。

三、大模型与数据治理可以“碰撞”出什么“火花”

大模型对数据治理的价值,最核心的一点就是“解放人力”。所以,大模型引入数据治理并不是去颠覆和替代原来的技术平台能力,更多的是替代原来一直需要人来开展的工作,从而得到更好的工作成果和更高的工作效率。

从这个角度出发,我认为大模型和数据治理的相遇,至少可以“碰撞”出三簇“火花”。

首先,大模型可以成为数据治理的“超级员工”。一个经过专业调校和训练的大模型,再加上性能足够的算力资源保障,在一些需要投入大量人力资源的工作上,完全可以“以一当十”,甚至“以一敌百”。以数据盘点为例,传统数据治理的方式就需要组织一支庞大的队伍,包括的技术人员和业务人员,通常持续工作一年以上,才能初步得到结果。而如果利用大模型,就可以分析推理自动生成表和字段的中文名称、业务定义描述、分级分类等原来需要大量人工梳理补充的内容,投入的人力资源只需要原来的五分之一,时间周期缩短到原来的十分之一。从目前我们的测试结果来看,经过一定调校训练后,大模型补充的业务元数据准确率达到90%以上,分级分类准确率可以达到94%以上。

其次,大模型可以成为数据治理的“协同中枢”。数据治理从来都不是一件简单的事情,没有最优的路径、没有必然的步骤、没有完全集中的工具等等,数据治理的管理人员需要去统筹、设计、调度、检查。大模型可以代替数据治理管理人员去编排任务、制定计划、调用工具、协调各种系统,最终达成工作的预期目标。这个过程中,大模型就像一个“交通指挥员”,指挥着数据、工具、系统等对象,井然有序。例如,某天某位领导想要一份数据质量分析报告,大模型会采集数据对象的元数据,调用数据标准生成数据质量规则,映射到相关字段,然后再调用数据质量核查功能进行检查,得到检查结果后再进行分析,生成数据质量分析报告,最后调用邮件工具将报告发送到领导的邮箱。大模型可以很好地组织起这一项工作,起到了一个组织者、统筹者和协调者的角色作用。

最后,大模型可以成为数据治理的“行业专家”。大模型可以快速的学习各种数据治理的知识,只要我们能够提供出各种公开或者非公开的资料,它都可以学进去。从理论上来讲,随着技术的不断发展,大模型的这种学习能力几乎是无限的。因此,它可以“博采众长”且“博闻强识”。这种能力不能仅仅体现在解答问题方式,而是要在具体的数据治理工作中发挥作用。比如,如果企业已经通过人工建立了一套数仓模型,那么就可以利用大模型来对建好的模型进行审查,发现不合理或者存疑的地方,同时也可以给出它的建议和具体的方案。当然,这一切的前提是大模型经过了专业的数仓建模的训练。

总之,我认为大模型和数据治理的结合,目前只是打开了一扇门的一条缝,虽“管中窥豹”,但也可预见未来这种结合将会迸发出的强大能量。这种能量将会彻底改变数据治理的行业格局。

四、我们在大模型数据治理方面做过的一些实践探索

近大半年以来,我们一直致力于将大模型应用到数据治理实务中。“数灵童”产品的发布算是我们这一阶段探索所取得的实践成果。目前,信安“数灵童”除了具备多模态数据处理、知识体管理、智能体开发、场景化编排等后台功能之外,还可以为客户提供两大类12个专项应用场景,“多点开花”帮助企业大幅提升数据治理具体场景下的工作效率。

图片

我认为,“数灵童”产品的发布在行业发展方面也具有极大的价值和意义。首先,将行业大模型从知识问答级升级到事务级,不仅仅可以组织文字进行对话,还可以承担数据治理日常执行事务,这是“驱动内核”质的变化;其次,彻底改变了传统数据治理工作方式,不再需要在系统平台上复杂配置,仅需要简单的对话和选择就可以完成一项复杂的数据治理工作,极大降低了技术门槛;再次,创新的平台技术架构带来全新的“建运一体”建设模式,随着“数灵童”基础后台能力的建设完成,上层专项应用场景可以快速拓展,并随着使用的过程不断对大模型、智能体进行优化和调校,不断提升专项应用场景的工作成效;最后,“数灵童”的发布开启了数据治理领域大模型逐步代替人力的新时代,成本投入持续降低,工作效能不断提升,数据治理工作对于企业来说将不再是难题和负担。

五、大模型驱动数据治理是未来之选、必行之径

“千里之行,始于足下”。在我们跟很多客户的交流探讨的时候,尽管有些客户还存在“现在的大模型真的能做这些”这样的疑问,但无一例外地都认可大模型应用到数据治理领域一定是未来的发展趋势,代表了一种数据治理领域全新的生产力和生产关系。我们还必须看到的是,大模型作为一个新兴技术领域,至少在未来十年仍旧会高速发展,不管是哪个行业,只有积极去面对、拥抱这种新技术,才有可能在未来的产业格局中占据自己的一席之地。否则,必然会因为脱离时代、赶不上社会平均生产力水平而逐步没落甚至被替代或淘汰。

  • 11
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值