代码:
def k_anonymization(data,k=3):
# 标识
logotype = ['员工姓名', '员工编号', '员工性别', '员工年龄', '工资年限', '薪资']
length_data=len(data)#二维数组长度,后面用来遍历二维数组
# 获取敏感属性的列索引
global min_keys, min_count, record#定义三个全局变量
#sensitive_attrs_index = [1, 3, 4 ,5]#需要泛化的敏感属性,这里多泛化工资
sensitive_attrs_index = [1, 3, 4] # 需要泛化的敏感属性,这里选择不泛化工资
# 对敏感属性进行泛化处理
for record in data:#遍历二维数组的数组
# 将中文姓名不输出
record[0] = ''
# 员工编号泛化后三位
employee_id = ''.join(filter(str.isdigit, record[1]))
record[1] = employee_id[:3] + '***'
# 对年龄、(工资)以及工作时长使用一个区间来进行泛化
# 使用整除运算符 // 将年龄除以 10 并向下取整,然后再乘以10得到年龄所在的整十位数。然后通过字符串拼接的方式将结果转换为字符串。
# 计算该年龄段的上界(将年龄除以 10 并向下取整,再加一再乘以 10,减一得到该年龄段的上界),同样将结果转换为字符串。最后通过字符串拼接的方式将两个字符穿拼接成形如 '30-39' 的字符串存储在 age_rang
k-匿名,判断输入数据是否符合k-匿名,python,对公司员工信息进行k-匿名
于 2023-06-20 02:05:12 首次发布