数据脱敏的场景与价值【总结】

Financial talent

已于 2022-07-31 15:20:06 修改

阅读量1.7k

点赞数 10

分类专栏：数据安全数据安全平台文章标签：安全网络安全数据分析大数据系统安全

于 2022-07-21 07:30:00 首次发布

本文链接：https://blog.csdn.net/weixin_52069830/article/details/125861493

版权

数据安全同时被 2 个专栏收录

26 篇文章 35 订阅

订阅专栏

数据安全平台

13 篇文章 9 订阅

订阅专栏

`🌕写在前面 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 ✉️今日分享：`

为什么在我们年轻时我们面前的生命之路总是显得无比漫长？因为我们不得不找寻空间塞满我们无限的希望。

🍀 前言

无论是静态脱敏还是动态脱敏，其最终都是为了防止组织内部对隐私数据的滥用，防止隐私数据在未经脱敏的情况下从组织流出。所以作为一个程序员不泄露数据是最起码的操守。

企业在运营过程中开展数据脱敏工作，往往面对的是大规模的数据集，信息化程度越高的企业越是如此。因此，企业需要借助技术手段来完成数据脱敏工作，不论是自研数据脱敏系统或工具，还是采购专门的数据脱敏产品，希望达到的效果是能够自动化、批量化地完成数据脱敏工作，并且能够与业务系统对接，内嵌入业务流程中，尽量减少人工干预，提升效率。

🍀 常见的脱敏场景

企业内部常见的数据脱敏场景主要包括数据报告脱敏、应用系统脱敏、数据库脱敏等。

🍓静态（数据文件）脱敏

适用于批量进行脱敏数据。比如用于模型训练的测试数据，再比如数据的导出用于离线数据分析。另一种就是数据报告及数据产品脱敏，这类场景主要包括内部的数据监控类产品或者看板、对外服务的数据类产品、基于数据分析的报告，比如业务汇报、项目复盘等。

🍓动态脱敏系统的使用场景

本文选取业务脱敏、运维脱敏、数据交换脱敏三个使用场景分别展开介绍。

业务脱敏

动态脱敏系统首先要解决的问题是，业务系统的普通用户访问应用系统时对数据权限的控制。正常情况下，业务系统开发时会依据用户身份标识进行身份验证后，不同的用户进行限制数据的访问。

如业务用户在访问某行数据时，只需要查看客户个人信息的姓名、电话等信息，而不需要查看身份证号或家庭住址，故对身份证或家庭住址的显示信息实行*号或其他方式进行脱敏处理。

对于遗留系统（旧系统无法再作升级改造）以及开发时未考虑《网络安全法》中要求的个人隐私保护问题，如若重新更改代码过于复杂，只能依赖于外部技术实现数据的隐私保护，这个时候也需要使用动态脱敏技术。

运维脱敏

在信息安全的职责分离中，针对数据有三类人员：数据所有者、数据管理员、系统管理员。数据所有者是业务人员，而数据管理员(DBA)与系统管理员是运维人员.。

动态脱敏需求最为迫切需要的一个场景，就是针对数据库的运维人员。运维人员拥有的是管理员帐号DBA账号，但业务系统的数据是属于业务单位而不是运维部门。从职责分离的原则上，如何实现既允许运维人员访问业务生产数据库又不能让他们看到敏感数据？

以员工的工资表为例，当数据库的运维人员使用高权限账号查询这类敏感表时，动态脱敏系统将自动将此敏感表（如工资表）的关键信息（工资）全部进行脱敏处理后再进行显示，防止敏感信息泄露。

之前的技术手段是DAM技术方案，针对数据库作访问审计管理，针对DBA登陆后的一切操作进行记录作为事后追溯。但这是一种被动的（事后）检测性能力，对于隐私保护同时还需要有预防性（事前）的技术能力。这种针对DBA维护时数据脱敏就是动态脱敏中的运维脱敏。

数据交换脱敏

动态脱敏还有一种不常见的使用场景：业务系统与业务系统之间的数据访问（称作数据交换更合适）。在满足隐私保护时需要对交换的数据进行脱敏处理，但又不像传统的静态脱敏一样需导出数据脱敏后再移交，而是通过业务系统之间的接口直接调用。这就属于应用系统之间不落地的数据交换，针对这种交换的数据需要作脱敏处理。

应用系统脱敏

应用系统脱敏主要指的是前端页面的敏感数据脱敏，以及数据类型接口API的透出数据脱敏。通过API接口方式向特定平台提供数据。需针对用户信息提供不同的脱敏策略。

支持根据API传过来的用户信息进行识别、支持API所属应用系统的身份识别、支持API所属的终端信息身份识别、支持对数据库账户信息识别。根据多因素身份识别，对不同API里面的用户访问采用不同的脱敏策略。

🍀 实现价值

🥝保护隐私数据，满足合规性

通过可以有效防止企业内部对隐私数据的滥用，防止隐私数据在未经脱敏的情况下从企业流出。满足企业既要保护隐私数据，同时又保持监管合规，满足企业合规性。

提供了丰富的内置脱敏算法和灵活的、流程化的策略和方案管理能力，支持对多种数据源进行脱敏处理，帮助企业在不改变业务流程的前提下快速部署实施，有效的降低脱敏的复杂度和风险，控制脱敏成本。

🥝保证业务可靠运行

遵循“保证脱敏后数据可应用”规则的能力。具体表现在产品在以下六个方面的支持：

智能化，随着企业数据的增长和数据内容的不断丰富，敏感数据可能分散在成百上千张表和字段中，元数据的管理工作越发繁重；同时从业务系统抽取的敏感数据在格式和组织上存在很大随意性；因此脱敏产品应该具有很好的识别敏感数据的能力，能够不依赖元数据中对表和字段的定义，而是根据数据特征自动的识别敏感数据并进行有效脱敏。例如身份证、地址、电话、邮件、银行卡号、车牌号、企业名称等。

可逆性，随着数据分析的流行和普及，第三方分析机构和内部经分团队需要将在脱敏后数据基础上分析的结果还原为业务数据，以形成真实的分析结果。因此需要提供对脱敏后数据的可逆还原能力。

可重复和不可重复性，数据脱敏需要提供能够重复脱敏相同数据的能力，在不同轮次的脱敏中，保证相同的隐私数据脱敏后的数据也是相同的。，从而保证数据在增量环境下能够被有效的关联。另一方面，有些时候处于安全考虑，需要提供不可重复的脱敏能力，保证相同的数据在不同轮次的脱敏产生的数据是不同的，从而防止逆向工程还原数据。

数据有效性，为了保证业务测试系统和分析系统的正常运行，需要保证脱敏后的数据必须能够准确反应原始数据的业务属性和数据分布特征；对于原始数据中的姓名、地址、病症、企业名称等信息需要在脱敏后仍然具有可读性；脱敏后的数据满足业务系统的数据规则，能够正确的通过业务系统的数据有效性验证，如身份证号、银行卡号的校验码，生日数据的区间，有效的发卡行信息，年龄与出生日期的匹配等；

数据完整性，脱敏后的数据需要保证是完整的，并且提供不改变原始数据尺寸，不包含无效信息的能力，防止敏感数据不符合目标数据的定义，造成无法顺利入库的情况。

数据关联性，脱敏后的数据应能满足业务系统的数据关系特征，严格保留原有的数据关系；例如身份证号在多个表中出现，需要保证这些数据经过脱敏后也是一样的。另外，对于具有时间序列关系的数据，需要保证每个日期脱敏后仍然能够保持原有的时间序列。

通过对上述六个方面的支持，有效保障了脱敏后的数据可以满足原始数据相同的业务规则，是能够代表了实际业务属性的虚构数据，能够使脱敏数据的使用者从体验上感觉数据是真实的，从而最终保证使用脱敏后的数据可以保证业务可靠运行。

🥝 敏感数据统一管理

敏感数据自动发现。系统内置了大量的敏感数据发现算法，能够通过对数据的采样分析，自动发现系统中的敏感数据，包括姓名、证件号、银行账户、金额、日期、住址、电话号码、Email地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等；同时提供了用户自定义敏感数据特征的扩充能力。通过敏感数据自动发现功能，不仅可以避免人工定义敏感数据带来的大量工作，同时可确保不会遗漏隐私信息，更能够持续发现新的敏感数据字段。

敏感数据字典管理。以敏感数据为中心，进行分类管理数据库字段。例如“身份证号”作为一类敏感数据，在该类管理所有数据库中的身份证号数据字段，并可实施统一的脱敏算法，并支持敏感数据字典的导入、导出等管理功能。

总结

数据脱敏系统毕竟不同于传统网络安全的硬件，需要对数据库具有较深入的理解，是信息安全与数据库DBA的结合领域。

　　一方面需要脱敏产品具有传统安全的理念，如实现数据脱敏的流程化、落实数据的职责分离。(如脱敏系统属于安全管理员维护的系统、而数据库维护属于DBA职责)。另一方面，系统应具有配套的流程管理系统，帮助安全管理员实现数据的脱敏。由于安全管理员不具有DBA的知识背景，在很多脱敏项目中需要脱敏厂商帮助安全管理员来制定脱敏策略，实现数据安全脱敏。

🙏作者水平很有限，如果发现错误，请留言轰炸哦！万分感谢感谢感谢

Financial talent

关注

10
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
5
评论
数据脱敏的场景与价值【总结】

企业在运营过程中开展数据脱敏工作，往往面对的是大规模的数据集，信息化程度越高的企业越是如此。因此，企业需要借助技术手段来完成数据脱敏工作，不论是自研数据脱敏系统或工具，还是采购专门的数据脱敏产品，希望达到的效果是能够自动化、批量化地完成数据脱敏工作，并且能够与业务系统对接，内嵌入业务流程中，尽量减少人工干预，提升效率。......
复制链接

扫一扫