基于大模型的数据安全合规场景应用

导读 本文将分享大模型在数据安全合规管理方面的实践。数据安全合规管理是整个数据管理中的一部分,其理念和思想是一脉相承的。

主要内容包括以下部分:

  1. 数据管理价值主张

  2. 基于大模型的数据安全合规场景应用


01

数据管理价值主张

首先来介绍一下数据安全相关背景,以及数据管理的价值主张。2021 年,国家颁布了个保法和数安法,在国家层面上,对数据安全合规提出了一些新的要求,并对未来数据的高效应用提出了方向。现在有了国家数据局这一部门,对于数据的要求可能会往上走到一个更高的台阶。

为了应对于国家相关法律的出台,集团委托科技成立了数据管理部,来负责对国家战略的衔接。

数据管理的工作并不是从国家法律出台才开始的,而是已经经历了不断地完善和演进。

数据管理的演进主要包括三个时代:

  • 第一个时代是信息化时代,主要任务是数据质量提升、监管报送等。有大量的保险和金融行业的数据应用,需要做监管报送。

  • 第二个时代是以数据资产为核心的数据管理体系的建设。不仅在集团层面上推进,在各个子公司里面也都会做自己的数据资产管理和数据价值挖掘。

  • 第三个时代是以数据合规为基础的全域数据管理体系。即今天在讲的,在符合外部监管对于数据安全的要求的前提下,建设能够保证数据高效流通,并对改善资产运营提出了要求的质量管理体系。

发展过程中,我们需要逐步解决各个痛点:

  • 数据责权及能力评估:包括数据战略、考核、组织、能力、制度和领域的建设。

  • 数据价值的衡量运营:包括数据价值的转化、量化、展现和运营。

  • 保障体系的科学完备:做好整个合规的规划、体系建设,以及运营和保障。

整个合规体系,包括合规的数据保障和高效的数据交互两大部分:

  • 首先,数据的合规保障,包括客户隐私协议,委托共享协议,授权鉴权管理等。我们会在这个体系之下,对国家法律进行整体统一解读,然后进行考核,实现协作机制。

  • 另外,在合规的基础之上,要保证数据有高效的交互,为此我们做了统一的数据资产管理、分级分类,推动数据的交互以及统一的价值资产评估。

面向外部监管、企业赋能和资产治理的数据管理的业务理解包括以下几大方面:

  • 最底层是技术平台的支持,包括数据资产管理平台、运营监控平台、数据加密的共享平台,以及客户授权管理平台。

  • 向上是企业赋能,包括数据工作的落实,日常的监测,以及专项的一些检视工作。在此基础上是数据合规保障和数据资产管理。

  • 最后是对接外部监管,过去是中国银保监,现在是金融局,还有一些银行自己的监管部门或证券的监管部门。要有相应的组织流程和制度,以及考核指标,对外进行披露和暴露。

上图中展示了十年来构建的数据管理解决方案,包括 1 个平台、4 类规则库、5 项服务和 6 类客户。

  • 1 个平台,指的是数据管控平台,包括资产、运营、加密和授权管理。

  • 4 类规则库包括合规规则库、合规知识库、数据资产库和系统工具库。

  • 5 项服务是提供数据管理机制、数据合规保障、数据资产管理、数据运营管理和技术工具实施。

  • 6 类客户包括企业高管、数据管理人员、业务人员、IT 人员、法务人员和财务人员。

我们需要面对集团十几家专业公司的治理和管理,所以与只有一家公司的数据管理不太一样。我们的工作完成之后,会下发到各家专业公司,专业公司再进行相应的执行和反馈。

02

基于大模型的数据安全合规场景应用

下面介绍基于大模型的数据安全合规场景的应用。

我们的应用场景主要包括数据合规管理、数据资产管理和数据能力评估。在这些场景中,我们也在利用大模型做一些尝试。LLM 任务主要包括分类任务、摘要任务、评估任务、问答任务和 SQL 任务。

模型分层包括基础层、决策层和执行层。基础层主要是做一些问答,以及对知识库的完善。决策层,会对模型进行二次训练,做一些微调,与知识图谱结合,支持合规检视预审、材料总结、内容判断、成熟度评估等专项场景。执行层,有一些工具和能力的下沉。我们现在也在尝试利用大模型进行决策之后,驱动工具去进行相应的解释,并依据解释的结果,再进行评价。

整体的技术架构如上图所示。采用了多模态大模型。从信号端来看,包括文字提取、PDF 转图片,之后通过 index 向量存储和检索文本化的向量化,再经过指令路由,传到模型端。在模型端,公司有自己的 GPT,专业公司也会有自己的 GPT,所以是多 GPT 的存在。在多 GPT 之上,进行指令的处理,通过 Prompt 和 Job 的分发,最后在应用端通过对整个模型的结果进行组装和格式化的数据提取,驱动上文中提到的三个业务的开展,建立好知识应用中心、能力应用中心和指标应用中心。

针对数据合规的场景,主要包括如下一些工作:首先是制度的下发;接着,我们会对制度进行合规检查;检查完后,下发到专业公司,专业公司会对整个信息进行申报;我们根据专业公司的申报进行评价;评价后,进行风险检测;针对国家近期出台的法律法条,我们可能会开展一些专项检查,比如 PIA 的评估、出入境的评估等等。

这些工作中,制度下发的难度是比较高的,因为合规的工作从国家开始立法,很多事情是没有细则的,需要企业不断探索,找到工作的方向。所以工作量非常大,非常耗时,难度非常高。有时对法律法条的解读,不仅需要对法律的了解,还要有对整个技术的深入理解,所以对人的综合要求较高。

合规检查的工作中,常常缺少指引,我们要基于人的主观经验判断能力,形成比较规范化的工程化的指引,应用到整个合规的解释过程中。

关于信息申报,可能一个检查申报上来的材料会有上百份。甚至有些我们对接接口过来的数据,虽然都已经格式化好了,但每次的数据形态和状态可能也不是完全一致的,可能还需要再做一些清理,审核的工作量是非常大的。

风险监测,要计算大量指标,并上报给集团领导,同时也要提供给各家专业公司,为其提供风险指引。

最后是专项解释,PIA 的评估。公司会对出境数据做审查和审核,这个工作量也是非常大的。因此我们借助大模型,将整个知识库沉淀下来,通过多模态的方式做好智能的审核,以及异常监测报警,从而大幅提升工作效率。

我们的资产管理和专业公司的资产管理之间类似的地方是,数据都是从采集到治理、到盘点,再到使用。但我们的资产管理更侧重于资产的使用,促进不同的专业公司之间合规地进行数据交互。

在数据采集部分,主要工作是推进集团各家专业公司做好 DataOps 工具的使用和规范的推进。

在数据治理部分,要做好数据标准管理和数据质量管理。我们不太关注每家专业公司具体的命名等细节,而是关注其最终结果,是不是他自己所做的指引产生的结果。

资产盘点方面,主要关注分级分类,对于重点数据做重点的考察和审计。还要做好数据认责,一旦数据发生了泄露或者出现其它风险,可以有责任人去追查。

最后是资产的使用。资产使用要经过审批链,要有对于交互的申请,合规的审核。敏感数据是不能被使用的,可能需要对使用申请进行整改,要做一些掩码或者加密。

整个过程中,最主要的工作包括利用AI 分析做分级分类,以及通过知识图谱做数据认责等。

第三个场景是基于大模型的数据能力评估。随着数据管理和数据治理在企业中不断被强化,数据化已成为公司发展过程中必不可少的一部分。信通院也会有大量的评审工作开展。在评审工作开展之前,很多专业公司对自身当前的水平都不是很清楚。所以我们在内部会做一些初评,包括 DCAM 的评估、安全能力的评估、数据状态程度的评估等等。

评估的工作是非常繁杂且庞大的,仅靠人工的审核是无法完成的,因此我们会基于知识库去做内容的审核并提出整改建议。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 7
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员二飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值