数据脱敏系统【回顾】

Financial talent

已于 2022-07-31 15:19:25 修改

阅读量2.2k

点赞数 39

分类专栏：数据安全数据安全平台文章标签：大数据网络安全机器学习数据分析

于 2022-06-30 23:52:56 首次发布

本文链接：https://blog.csdn.net/weixin_52069830/article/details/125549937

版权

数据安全同时被 2 个专栏收录

26 篇文章 35 订阅

订阅专栏

数据安全平台

13 篇文章 9 订阅

订阅专栏

`🌕写在前面 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 ✉️今日分享：`

我本将心向明月，奈何明月照沟渠。

🍀 前言

《中华人民共和国网络安全法》、《信息安全技术个人信息安全规范》、《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》相继发布，中共中央、国务院将数据作为生产要素提出。随着监管严格、法律细化，数据分发和共享将面临新的要求和安全挑战。

当前，数据流动的场景复杂多变，许多场景既需要将数据批量分发共享，又需要确保敏感信息脱离安全场景后，对数据可用性和数据安全性这二者的兼顾。

数据分类分级之后怎么做？当然是加快数据的共享开放，并且针对高级别敏感数据可以通过脱敏处理之后降低安全级别对外共享，今天我们聊一聊关于数据脱敏的故事。

🍀 数据脱敏的基本概念

先来看看什么是数据脱敏？百度百科对数据脱敏的定义为：指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。

数据脱敏也叫数据的去隐私化，采用专门的脱敏算法对敏感数据进行屏蔽和仿真替换，将敏感数据转化为虚构数据，将个人信息匿名化，为数据的安全使用提供基础保障。同时，在不改变业务系统逻辑的前提下，保证脱敏后的数据保留原数据的特征和分布，同时保证数据的有效性和可用性，使脱敏后的数据能够安全地应用于测试、开发、分析和第三方使用环境中。

🍊数据脱敏的发展

在当前国内信息安全热潮中，数据脱敏作为数据安全的重要一环得到了业界的认可与重视。早在2012年，数据脱敏首次作为一个单独的魔力象限由Gartner发布，Gartner在2014年又提出了：按照数据使用场景，将数据脱敏分为静态数据脱敏(Static data masking-SDM )与动态数据脱敏(Dynamic data masking-DDM )。

可能有人望文生义，认为动态数据脱敏一定比静态数据脱敏高级。非也非也，静态or动态，取决于脱敏的使用场景，主要是以使用场景为由来选择合适的数据脱敏的模式。

🍊数据脱敏在生活中的应用

像政府、医疗行业、金融机构、移动运营商是比较早开始应用数据脱敏工具的，因为他们所掌握的都是用户最核心的私密数据，如果泄露后果是不可估量的。

数据脱敏的应用在生活中是比较常见的，比如我们在淘宝买东西订单详情中，商家账户信息会被用 * 遮挡，保障了商户隐私不泄露，这就是一种数据脱敏方式。

🍊数据静态脱敏和数据动态脱敏

基于应用场景的不同，数据脱敏又分为数据静态脱敏（SDM）和数据动态脱敏（DDM）

🍀 数据静态脱敏

数据静态脱敏（SDM）：适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景。

有时我们可能需要将生产环境的数据 copy 到测试、开发库中，以此来排查问题或进行数据分析，但出于安全考虑又不能将敏感数据存储于非生产环境，此时就要把敏感数据从生产环境脱敏完毕之后再在非生产环境使用。

这样脱敏后的数据与生产环境隔离，满足业务需要的同时又保障了生产数据的安全。

如上图所示，将用户的真实姓名、手机号、身份证、银行卡号通过替换、无效化、乱序、对称加密等方案进行脱敏改造。

🍀 数据动态脱敏

数据动态脱敏（DDM）：一般用在生产环境，访问敏感数据时实时进行脱敏，因为有时在不同情况下对于同一敏感数据的读取，需要做不同级别的脱敏处理，例如：不同角色、不同权限所执行的脱敏方案会不同。

🍀 数据脱敏的方式

🌳 无效化

无效化方案在处理待脱敏的数据时，通过对字段数据值进行截断、加密、隐藏等方式让敏感数据脱敏，使其不再具有利用价值。一般采用特殊字符（*等）代替真值，这种隐藏敏感数据的方法简单，但缺点是用户无法得知原数据的格式，如果想要获取完整信息，要让用户授权查询。

🌳 随机值

随机值替换，字母变为随机字母，数字变为随机数字，文字随机替换文字的方式来改变敏感数据，这种方案的优点在于可以在一定程度上保留原有数据的格式，往往这种方法用户不易察觉的。

我们看到 name 和 idnumber 字段进行了随机化脱敏，而名字姓、氏随机化稍有特殊，需要有对应姓氏字典数据支持。

🌳 数据替换

数据替换与前边的无效化方式比较相似，不同的是这里不以特殊字符进行遮挡，而是用一个设定的虚拟值替换真值。比如说我们将手机号统一设置成 “13651300000”。

🌳 对称加密

对称加密是一种特殊的可逆脱敏方法，通过加密密钥和算法对敏感数据进行加密，密文格式与原始数据在逻辑规则上一致，通过密钥解密可以恢复原始数据，要注意的就是密钥的安全性。

🌳 平均值

平均值方案经常用在统计场景，针对数值型数据，我们先计算它们的均值，然后使脱敏后的值在均值附近随机分布，从而保持数据的总和不变。

原始数据

对价格字段 price 做平均值处理后，字段总金额不变，但脱敏后的字段值都在均值 60 附近。

平均值

🌳 偏移和取整

这种方式通过随机移位改变数字数据，偏移取整在保持了数据的安全性的同时保证了范围的大致真实性，比之前几种方案更接近真实数据，在大数据分析场景中意义比较大。

比如下边的日期字段create_time中 2020-12-08 15:12:25 变为 2018-01-02 15:00:00。

取整

数据脱敏规则在实际应用中往往都是多种方案配合使用，以此来达到更高的安全级别。

🍀 数据静态脱敏系统的部署方式

🥝旁路部署模式

一般数据静态脱敏系统主要是旁路部署模式，生产和测试环境网络可达，无物理隔离，通过单台设备实现脱敏迁移。多台脱敏设备部署时可以采用集群的方式，提高运算性能，满足大数据量场景对于脱敏效率的需求，脱敏设备可作为运算节点接入或摘除，提供可扩缩的脱敏集群部署能力

🍀 数据动态脱敏系统的部署方式

🥝代理网关式

动态脱敏系统常见的一种部署模式,逻辑上是旁路,物理上是串行的方式。原本应用系统与数据库建立连接,为了实现数据脱敏处理，应用系统的SQL数据连接请求转发到脱敏代理系统,由动态脱敏系统解析请求后,再将SQL语句转发到数据库服务器，数据库服务器返回的数据同样经过动态脱敏系统后由脱敏系统返回给应用服务器。

这种部署方式可以实现，不在数据库服务器与应用务器上安装软件就能进行脱敏处理,但这也需要更改应用务器对数据库的调用地址，也就是说原来是由应用务器连接数据库,现在改成应用服务器连接动态脱敏的代理网关。这种部署模式能针对应用用户实现粗粒度的脱敏,也可实现针对运维脱敏的处理。存在的问题是，针对应用用户无法实现用户级的不同脱敏算法与效果，同时运维脱敏也存在被绕过的危险,DBA可能会绕过动态脱敏系统直接访问数据库地址。（国外Informatica 的产品就是常以这种方式部署）。

🥝透明网关式

这种部署模式是将动态脱敏系统串接在应用服务器与数据库之间，由于动态脱敏系统能在OSI二层上工作，不需要IP地址，对应用服务器与数据库服务器来说，都像原来一样访问各自的真实IP地址，动态脱敏系统通过协议解析分析出流量中的SQL语句来实现脱敏。这种部署方式不需要更改应用服务器与数据库服务器的连接设置，但在网络中会形成单点故障，虽然常常有BYPASS技术作为支撑，但所有流量都会经过网关，会造成网关性能瓶颈问题。（国外做数据库防火墙的Imperva 等会采用这种方式，但动态脱敏只是其中小的功能，也只是针对少量的敏感数据采用这种脱敏方式。）

🥝软件Agent代理方式

这种方式在数据库服务器上安装Agent, 监控对数据的访问请求。当请求的数据是敏感数据时，Agent 会利用脱敏算法来对数据进行脱敏处理。这种部署方式需要在数据库服务器上安装软件，带来了好处是运维人员无法绕过。

总结

数据脱敏系统可以按照不同业务场景自行定义和编写脱敏规则，可以针对库表的某个敏感字段，进行数据的不落地脱敏。

在抹去数据中的敏感内容同时，也需要保持原有的数据特征、业务规则和数据关联性，保证我们在开发、测试以及数据分析类业务不会受到脱敏的影响，使脱敏前后的数据一致性和有效性。总之一句话：你爱怎么脱就怎么脱，别影响我使用就行。
下期重点介绍数据脱敏核心技术及技术的演变过程！

🙏作者水平很有限，如果发现错误，请留言轰炸哦！万分感谢感谢感谢！