基于大模型的数据安全合规场景应用

最新推荐文章于 2025-02-08 16:35:28 发布

程序员二飞

最新推荐文章于 2025-02-08 16:35:28 发布

阅读量1.3k

点赞数 16

文章标签：学习人工智能机器学习语言模型

本文链接：https://blog.csdn.net/xiangxueerfei/article/details/140732059

版权

导读本文将分享大模型在数据安全合规管理方面的实践。数据安全合规管理是整个数据管理中的一部分，其理念和思想是一脉相承的。

主要内容包括以下部分：

数据管理价值主张
基于大模型的数据安全合规场景应用

数据管理价值主张

首先来介绍一下数据安全相关背景，以及数据管理的价值主张。2021 年，国家颁布了个保法和数安法，在国家层面上，对数据安全合规提出了一些新的要求，并对未来数据的高效应用提出了方向。现在有了国家数据局这一部门，对于数据的要求可能会往上走到一个更高的台阶。

为了应对于国家相关法律的出台，集团委托科技成立了数据管理部，来负责对国家战略的衔接。

数据管理的工作并不是从国家法律出台才开始的，而是已经经历了不断地完善和演进。

数据管理的演进主要包括三个时代：

第一个时代是信息化时代，主要任务是数据质量提升、监管报送等。有大量的保险和金融行业的数据应用，需要做监管报送。
第二个时代是以数据资产为核心的数据管理体系的建设。不仅在集团层面上推进，在各个子公司里面也都会做自己的数据资产管理和数据价值挖掘。
第三个时代是以数据合规为基础的全域数据管理体系。即今天在讲的，在符合外部监管对于数据安全的要求的前提下，建设能够保证数据高效流通，并对改善资产运营提出了要求的质量管理体系。

发展过程中，我们需要逐步解决各个痛点：

数据责权及能力评估：包括数据战略、考核、组织、能力、制度和领域的建设。
数据价值的衡量运营：包括数据价值的转化、量化、展现和运营。
保障体系的科学完备：做好整个合规的规划、体系建设，以及运营和保障。

整个合规体系，包括合规的数据保障和高效的数据交互两大部分：

首先，数据的合规保障，包括客户隐私协议，委托共享协议，授权鉴权管理等。我们会在这个体系之下，对国家法律进行整体统一解读，然后进行考核，实现协作机制。
另外，在合规的基础之上，要保证数据有高效的交互，为此我们做了统一的数据资产管理、分级分类，推动数据的交互以及统一的价值资产评估。

面向外部监管、企业赋能和资产治理的数据管理的业务理解包括以下几大方面：

最底层是技术平台的支持，包括数据资产管理平台、运营监控平台、数据加密的共享平台，以及客户授权管理平台。
向上是企业赋能，包括数据工作的落实，日常的监测，以及专项的一些检视工作。在此基础上是数据合规保障和数据资产管理。
最后是对接外部监管，过去是中国银保监，现在是金融局，还有一些银行自己的监管部门或证券的监管部门。要有相应的组织流程和制度，以及考核指标，对外进行披露和暴露。

上图中展示了十年来构建的数据管理解决方案，包括 1 个平台、4 类规则库、5 项服务和 6 类客户。

1 个平台，指的是数据管控平台，包括资产、运营、加密和授权管理。
4 类规则库包括合规规则库、合规知识库、数据资产库和系统工具库。
5 项服务是提供数据管理机制、数据合规保障、数据资产管理、数据运营管理和技术工具实施。
6 类客户包括企业高管、数据管理人员、业务人员、IT 人员、法务人员和财务人员。

我们需要面对集团十几家专业公司的治理和管理，所以与只有一家公司的数据管理不太一样。我们的工作完成之后，会下发到各家专业公司，专业公司再进行相应的执行和反馈。

基于大模型的数据安全合规场景应用

下面介绍基于大模型的数据安全合规场景的应用。

我们的应用场景主要包括数据合规管理、数据资产管理和数据能力评估。在这些场景中，我们也在利用大模型做一些尝试。LLM 任务主要包括分类任务、摘要任务、评估任务、问答任务和 SQL 任务。

模型分层包括基础层、决策层和执行层。基础层主要是做一些问答，以及对知识库的完善。决策层，会对模型进行二次训练，做一些微调，与知识图谱结合，支持合规检视预审、材料总结、内容判断、成熟度评估等专项场景。执行层，有一些工具和能力的下沉。我们现在也在尝试利用大模型进行决策之后，驱动工具去进行相应的解释，并依据解释的结果，再进行评价。

整体的技术架构如上图所示。采用了多模态大模型。从信号端来看，包括文字提取、PDF 转图片，之后通过 index 向量存储和检索文本化的向量化，再经过指令路由，传到模型端。在模型端，公司有自己的 GPT，专业公司也会有自己的 GPT，所以是多 GPT 的存在。在多 GPT 之上，进行指令的处理，通过 Prompt 和 Job 的分发，最后在应用端通过对整个模型的结果进行组装和格式化的数据提取，驱动上文中提到的三个业务的开展，建立好知识应用中心、能力应用中心和指标应用中心。

针对数据合规的场景，主要包括如下一些工作：首先是制度的下发；接着，我们会对制度进行合规检查；检查完后，下发到专业公司，专业公司会对整个信息进行申报；我们根据专业公司的申报进行评价；评价后，进行风险检测；针对国家近期出台的法律法条，我们可能会开展一些专项检查，比如 PIA 的评估、出入境的评估等等。

这些工作中，制度下发的难度是比较高的，因为合规的工作从国家开始立法，很多事情是没有细则的，需要企业不断探索，找到工作的方向。所以工作量非常大，非常耗时，难度非常高。有时对法律法条的解读，不仅需要对法律的了解，还要有对整个技术的深入理解，所以对人的综合要求较高。

合规检查的工作中，常常缺少指引，我们要基于人的主观经验判断能力，形成比较规范化的工程化的指引，应用到整个合规的解释过程中。

关于信息申报，可能一个检查申报上来的材料会有上百份。甚至有些我们对接接口过来的数据，虽然都已经格式化好了，但每次的数据形态和状态可能也不是完全一致的，可能还需要再做一些清理，审核的工作量是非常大的。

风险监测，要计算大量指标，并上报给集团领导，同时也要提供给各家专业公司，为其提供风险指引。

最后是专项解释，PIA 的评估。公司会对出境数据做审查和审核，这个工作量也是非常大的。因此我们借助大模型，将整个知识库沉淀下来，通过多模态的方式做好智能的审核，以及异常监测报警，从而大幅提升工作效率。

我们的资产管理和专业公司的资产管理之间类似的地方是，数据都是从采集到治理、到盘点，再到使用。但我们的资产管理更侧重于资产的使用，促进不同的专业公司之间合规地进行数据交互。

在数据采集部分，主要工作是推进集团各家专业公司做好 DataOps 工具的使用和规范的推进。

在数据治理部分，要做好数据标准管理和数据质量管理。我们不太关注每家专业公司具体的命名等细节，而是关注其最终结果，是不是他自己所做的指引产生的结果。

资产盘点方面，主要关注分级分类，对于重点数据做重点的考察和审计。还要做好数据认责，一旦数据发生了泄露或者出现其它风险，可以有责任人去追查。

最后是资产的使用。资产使用要经过审批链，要有对于交互的申请，合规的审核。敏感数据是不能被使用的，可能需要对使用申请进行整改，要做一些掩码或者加密。

整个过程中，最主要的工作包括利用AI 分析做分级分类，以及通过知识图谱做数据认责等。

第三个场景是基于大模型的数据能力评估。随着数据管理和数据治理在企业中不断被强化，数据化已成为公司发展过程中必不可少的一部分。信通院也会有大量的评审工作开展。在评审工作开展之前，很多专业公司对自身当前的水平都不是很清楚。所以我们在内部会做一些初评，包括 DCAM 的评估、安全能力的评估、数据状态程度的评估等等。

评估的工作是非常繁杂且庞大的，仅靠人工的审核是无法完成的，因此我们会基于知识库去做内容的审核并提出整改建议。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：