Flink SQL 的数据脱敏解决方案

本文介绍了一种Flink SQL的数据脱敏解决方案,实现了面向用户级别的数据访问控制,确保敏感信息的安全。该方案详细阐述了数据脱敏的概念、业务流程,包括设置策略和用户访问,并对比了Hive的解决方案。特别地,文章提供了Flink SQL的执行流程,展示了如何利用Calcite抽象语法树来实现数据脱敏,并给出了测试用例验证其有效性。
摘要由CSDN通过智能技术生成

Flink SQL 的数据脱敏解决方案,支持面向用户级别的数据脱敏访问控制,即特定用户只能访问到脱敏后的数据。此方案是实时领域Flink的解决思路,类似于离线数仓 Hive 中 Ranger Column Masking 方案。

一、基础知识

1.1 数据脱敏

数据脱敏(Data Masking)是一种数据安全技术,用于保护敏感数据,以防止未经授权的访问。该技术通过将敏感数据替换为虚假数据或不可识别的数据来实现。例如可以使用数据脱敏技术将信用卡号码、社会安全号码等敏感信息替换为随机生成的数字或字母,以保护这些信息的隐私和安全。

1.2 业务流程

下面用订单表orders的两行数据来举例,示例数据如下:

1.2.1 设置脱敏策略

管理员配置用户、表、字段、脱敏条件,例如下面的配置。

1.2.2 用户访问数据

当用户在Flink上查询orders表的数据时,会在底层结合该用户的脱敏条件重新生成 SQL,即让数据脱敏生效。
当用户 A 和用户 B 在执行下面相同的 SQL 时,会看到不同的结果数据。

SELECT * FROM orders

用户A查看到的结果数据如下customer_name字段的数据被全部掩盖掉。

用户 B 查看到的结果数据如下customer_name字段的数据只会显示前 4 位,剩下的用 x 代替。

二、Hive 数据脱敏解决方案

在离线数仓工具 Hive 领域,由于发展多年已有 Ranger 来支持字段数据的脱敏控制,详见参考文献[[1]](https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/authorization-ranger/content/dynamic_resource_based_column_masking_in_hive_with_ranger_policies.html)
下图是在 Ranger 里配置 Hive 表数据脱敏条件的页面,供参考。

但由于 Flink 实时数仓领域发展相对较短,Ranger 还不支持 Flink SQL,以及依赖 Ranger 的话会导致系统部署和运维过重,因此开始自研实时数仓的数据脱敏解决工具。当然本文中的核心思想也适用于 Ranger 中,可以基于此较快开发出 ranger-flink 插件。

三、Flink SQL 数据脱敏解决方案

3.1 解决方案

3.1.1 Flink SQL 执行流程

可以参考作者文章 [[FlinkSQL字段血缘解决方案及源码]](

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值