智能化数据安全分类分级实践_智能安全分类分级-CSDN博客

本文链接：https://blog.csdn.net/whalecloud/article/details/140633825

在当今数字化浪潮的迅猛推进下，企业和组织正遭遇前所未有的数据安全治理挑战。随着海量数据的不断产生、传输、存储和应用，它们面临着来自黑客攻击、内部人员恶意泄露以及数据误操作等多重安全威胁的侵袭。因此，构建一个健全的数据安全治理体系，确保数据的安全性和合规性，已成为各行各业刻不容缓的重要任务。

数据安全分类分级是数据安全的基础。我们必须认识到，并非所有数据都拥有相同的敏感度和重要性。从财务数据到个人隐私信息，再到知识产权资料，不同业务数据在敏感性和价值上存在着显著的差异。只有精准地识别各类数据的安全等级，才能为它们制定合适的安全防护措施，从而有效保障数据安全。

问题与挑战

当前数据安全分类分级管理主要有两种实现方式：手工打标和基于规则打标。主要对比如下：

从表格的对比数据中，我们可以清晰地识别出手工打标和规则打标在数据安全分类分级管理中的显著问题：

01 手工打标：效率低下，治理成本高昂

在数据安全分类分级的过程中，手工打标依赖于人力对海量数据集进行逐一审查和细致分析，以确定其分类和敏感级别。这种方法效率低下，且需要投入大量人力资源，导致治理成本显著上升。特别是随着数据量的快速增长，手工打标的效率瓶颈愈发突出，难以满足现代企业对快速响应和高效管理的迫切需求。

02 规则打标：规则覆盖不全，大数据处理性能突显

在规则打标，如基于字段名称、注释和内容，根据对应的正则规则进行识别，在实际应用中也面临诸多挑战。一方面，依赖固定规则进行匹配的字段识别方法需要维护大量的规则，如规则覆盖不全则导致识别准确率下降。另一方面，基于字段内容的识别方法在处理大型数据表时，由于数据处理的复杂性和计算量的增加，其性能会显著降低，并消耗大量系统资源。

因此，为了应对这些挑战，我们需要寻找一种更为高效、准确且智能的数据安全分类分级方法，从而满足大数据时代下数据安全治理的要求。

解决措施

本方案核心目标是通过自动化和智能化的手段，优化数据安全分类分级的管理流程，提高效率和准确性。整体思路如下：

首先基于大数据平台已采集的字段信息，字段血缘、字段质量规则、字段安全规则及手工分类分级打标数据，形成字段特征库，为后续应用提供基础数据支撑。

再是构建智能分类分级引擎，包括规则引擎、血缘引擎及AI引擎，在实际应用可根据需求场景，选择对应的分类分级引擎进行执行。

最后，通过制定不同场景下数据安全分类分级的安全防护策略实现数据全生命周期的安全防护。

01 构建高维字段特征库，为AI引擎提供高质量数据

（1）数据采集

从业务系统、数据平台分别抽取字段的基本特征属性（如编码、名称、类型、描述等）、字段血缘、已配置的稽核规则（如取值范围、数据格式、非空、唯一性等）、已配置的安全规则（脱敏、加密策略等）及手工分类分级打标数据。

（2）数据清洗

对已采集字段数据进行清洗及预处理，从而保障数据质量，包括缺失值填充、异常值去除、数据格式转换等。

（3）数据整合

以字段编码作为唯一标识符，对分散在各模块的字段特征和规则进行统一整合，形成高维数据集。对于存在重复编码且规则冲突的字段，经过人工二次确认后，统一录入字段特征库。

02 智能分类分级引擎，实现敏感数据精准高效识别

在字段特征库构建完成后，基于自然语言处理、深度学习技术，构建AI引擎，深入分析字段的特征属性和血缘关系，智能识别出该字段的分类分级规则。在这过程中，基于人工打标数据及对智能识别结果进行修正，不断学习领域专家的知识和经验，持续提高智能识别的准确性和效率。

该算法的核心在于精确比较物理字段的属性与数据元属性的相似性和潜在关联性，并据此生成一个综合的相似性评分。为了实现这一目标，我们综合应用了文本处理以及先进的字符串比较和度量技术。并且对于编码型和文本型属性，我们采取了差异化的处理策略，确保在结构化数据字段的处理中既能实现精确匹配，又能深入理解语义内容。

在应对现实挑战时，我们特别考虑到字段使用的不规范性。在某些情况下，字段的编码、名称或注释在表面上的相似度可能很高，但在不同的数据表或业务场景中，它们所承载的实际意义却可能大相径庭。因此，我们的算法不仅局限于基础的属性比较，还计划纳入更多的业务属性作为相似度评分的考量因素，从而不断提高相似度评分的准确性和实用性。通过这一策略，我们期望能够为用户提供更加精准、可靠的字段分类和推荐服务。

（1）相似度计算：

对从ES中召回的数据元与输入字段进行详细的相似度计算，并基于计算结果对召回的数据进行重新排序。

编码类属性相似度计算，针对输入的编码类属性（如标识符、代码等），采用字面相似度计算方法（如编辑距离、Jaccard相似度等）来计算评分，以评估它们在形式上的接近程度。

文本类属性语义相似度计算，对于输入的文本类属性（如字段描述、注释等），利用自然语言处理（NLP）技术，如词向量、BERT等模型，来计算语义相似度评分，从而捕获它们在含义上的相似性。

（2）综合评分：

综合考虑不同匹配维度（如编码相似度、语义相似度等）的重要性及其对最终匹配准确性的贡献，设计合理的权重公式和参数，对各维度评分进行加权计算，得出一个综合的相似度评分。此外，根据业务反馈和实际应用效果，持续优化和调整权重参数，以确保相似度计算的准确性和实用性。

数据元共包含5种可用来进行相似度匹配的特征属性，这5种属性按照类型可划分成编码类和文本类，如下所示：

综合评分通过各属性的相似度加权计算得出。

综合评分计算公式如下：

其中，权重系数，相加和为1，并可以根据用户实际反馈的情况进行自动调整和优化。

03 全方位安全防护技术，保障数据全生命周期安全

（1）全面的安全防护技术

为保护数据安全，提供全面的数据安全防护技术，包括数据加密、数据脱敏、数据水印、数据库安全网关等。

数据加密，支持DES、AES、3DES、RSA等主流加密算法及SM2、SM4国密加密算法。

数据脱敏，系统内置15种常用脱敏算法，支持动态脱敏、静态脱敏，并可自定义配置脱敏规则及脱敏算法。

数据水印，支持网页、excel、pdf等添加水印，并可灵活配置水印模板。

数据库安全网关，支持无侵入方式，部署于数据访问的客户端和数据存储之间，通过识别访问者身份、位置、行为等信息，提供统一的、细粒度的访问控制能力。

（2）全场景的安全防护策略

围绕数据采集、传输、存储、处理、共享、销毁全生命周期，提供全场景的安全防护策略。并且针对不同的使用场景，同一敏感等级数据支持不同的安全防护策略配置。如针对用户名、手机号等个人敏感数据支持在存储时配置加密策略，在数据访问时配置脱敏策略。

应用场景

以下是两种典型业务场景的应用场景：

场景1：ods层表分类分级识别及安全防护

在ods层，由于表通常是数据的初始节点，字段血缘关系推荐在此层级并不适用。然而，ods层可能存在大量字段名称和描述高度相似的字段，它们实际上存储的是相同类型的数据。为了提升数据安全分类分级的效率，我们可以采用AI引擎进行分类分级，通过比较字段的元数据、名称、描述等信息，自动推荐相似的分类分级规则。

场景2：dwd层表分类分级识别及安全防护

当数据从ods层流转到dwd层时，字段的血缘关系成为了数据变化过程的重要参考。dwd层的表通常依赖于ods层的表，通过血缘关系可以清晰地看到数据是如何被加工、转换和组合的。在这种情况下，基于字段血缘关系的推荐方法能够更准确地描述数据的变化过程，其推荐结果也更具可信度。因此，在ods层完成分类分级识别后，我们可以利用字段血缘关系推荐来提升dwd层数据安全分类分级的效率。

基于以上两种场景，数据安全分类分级及安全防护的落地实施可以遵循以下关键步骤：

（1）分类分级任务配置

通过选择需要执行分类分级的数据目录（ods、dwd等），配置合适的智能分类引擎（血缘引擎或AI引擎）及任务执行调度周期，完成分类分级任务配置。