【转】数据脱敏、加密、假名化、去标识化与匿名化的区分

前言

个人信息保护领域经常遇到与匿名化(Anonymization)相关且容易混淆的术语,比如数据脱敏(Data Masking)、数据加密(Encryption)、假名化(Pseudonymization)和去标识化(De-identification)。这些概念在不同的语境下可能有着不同的意义和法律效果,为此本文将从定义、法律效果和技术实现的角度逐一展开进行简要分析。

数据脱敏

        数据脱敏是一个数据科学领域的常用术语,是指在不影响数据分析结果的准确性的前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度和减少个人隐私风险的技术措施。通常而言,数据脱敏分为三个阶段,首先,需要识别出数据库中的敏感字段信息;其次,采取替换、过滤、加密、遮蔽或者删除等技术手段将敏感属性脱敏,脱敏所使用的技术手段与下文提到的去标识化和匿名化用到的技术本质上没有不同;最后,需要对脱敏处理后的数据集进行评价,以确保其符合脱敏要求。总的来说,假名化、去标识化和匿名化都可以算是数据脱敏技术。但是需要注意的是,数据脱敏是一个技术术语,在法律语境下很少使用。

数据加密

        密码技术在个人信息保护领域有很多应用。首先,各国的数据保护法律法规都对个人信息的存储和传输提出了加密的要求,以确保个人信息的安全。比如GDPR(General Data Protection Regulation)序言和第32条规定数据控制者和数据处理者应该采取加密之类的措施来减少数据处理的风险,确保个人信息的保密性(Confidentiality)与完整性(Integrity);新版《个人信息安全规范》6.3条规定,传输和存储个人敏感信息时,应采用加密等安全措施;HIPAA(Health Insurance Portability and Accountability Act)第164.312条也规定加密作为保证数据传输安全与访问控制的技术手段。

        密码技术通常有狭义和广义之分,狭义的密码技术(或“加密技术”)是指对数据进行可逆的数学变化以隐藏信息的行为,加密前的信息称为明文(Plaintext),加密后的信息称为密文(Ciphertext),从密文还原成明文的过程叫解密(Decryption),加密与解密需要的参数叫做密钥(Key);此外,哈希函数(Hash Function)(或“消息摘要算法”,Message-Digest Algorithm)也属于广义上的密码技术,其可以将任意长度的数据转换为固定长度的哈希值,且原文与哈希值为一一映射的关系。相比狭义的密码技术,哈希函数特点在于不具有可逆性(无法解密),且不需要密钥参与加密过程。常见的哈希函数有MD5和SHA-1等。

        对于狭义上的加密技术来说,其分为对称加密(Symmetric cryptography)与非对称加密(Asymmetric cryptography)两种类型。对称加密技术无论是加密还是解密都只采用同一密钥,常见的对称加密算法有DES、AES和RC系列;非对称加密体系指加密的密钥与解密的密钥不同的加密算法,加密密钥称之为公钥(Public key),解密密钥为私钥(Private key),常见的非对称加密算法有RSA、DSA和椭圆曲线算法等。但是无论是哪种加密技术,只要个人信息控制者拥有(私)密钥,就可以将加密后的密文还原成明文。

        对于哈希函数而言,其没有密钥体系,且具有单向性,即任何人都无法从密文(哈希值)逆向求出相应的原始明文数据。但是仍然存在两种可能复原的情形:其一为映射表(Mapping table),即个人信息控制者在对标识符进行哈希处理时,通常会生成一张哈希值与原始标识符的映射表单另外单独保存起来,用于还原标识符;其二为彩虹表(Rainbow table),虽然哈希函数具有单向性,但是哈希函数明文与密文具有一一映射的性质。根据该性质,彩虹表是一种基于字典破解(提前构建一个“明文->密文”映射关系的一个大型数据库,破解时通过密文直接反查明文)与暴力破解(穷举所有可能的明文,将经过哈希后生成的密文与要还原的密文比较),在字典破解的基础上改进以时间换空间的破解方式。此外,考虑到需要破解的密文都有一定的顺序(Order),比如直接标识符手机号通常是11位数字,且前三位数通常固定,那么根据这些顺序规则,可以大大减少试错成本,从而快速的破解出哈希值的原文。

        基于上述性质,加密除了可以作为个人信息传输与存储的安全保障技术外,还可以用作为下文所述的假名化、去标识化和匿名化的实现技术手段。然而,仅仅使用加密技术可能不足以达到去标识化或匿名化的要求,因为去标识化和匿名化往往需要防止重识别的能力。而狭义加密技术中的密钥和哈希函数中的映射表和彩虹表使得加密后的标识符的复原成为了可能。此外,即使采取了相应的措施(比如将密钥和映射表彻底删除等),使得该标识符无法被还原,攻击者仍可能将其他地方获取的数据与该数据其他字段结合起来识别出特定的个人信息主体。

假名化

        假名化是指通过生成新的字符来替代原标识符(通常为直接标识符)的数据处理方式。假名化的概念在GDPR、CCPA(California Consumer Privacy Act)和各种标准文件中出现过,相关定义如下表所示:

        根据上述定义,假名化技术是指用生成的新字符,即假名(pseudonym),取代原来的直接标识符,使得在不借助额外信息情况下无法识别出个人信息主体。WP29工作小组《Opinion 05/2014》中列举了常用的假名生成技术有如下几种:1)带密钥加密(Encryption with secret key);2)哈希函数(Hash Function);3)带密钥的哈希函数(Keyed-hash function with stored key);4)令牌化(Tokenization)等。带密钥的哈希函数其实是加盐(Add salt)哈希的一种情形。所谓加盐,是指一种增强哈希函数安全性以应对上文所述的彩虹表破解的常用技术手段,即在进行哈希加密前在原标识符的特定位置(通常是头部或者尾部)加上一串字符(盐值,Salt value)。对于盐值的选择,通常有固定字符串或一次性随机字符串等等。带密钥的哈希函数指的就是通过在标识符中加入一串密钥(Key)(密钥单独保密存储),这里的密钥就是盐值,比如对标识符手机号码进行加加盐哈希处理,即对“Key+手机号码”进行哈希处理得到假名。这样在攻击者不知道盐值的情况下,可以极大的提升彩虹表破解的难度。

        如上文数据加密部分所述,通过加密标识符生成的假名的方式,用于还原标识符的信息为密钥;通过哈希函数和令牌化技术生成假名的情况下,通常会额外生成一张假名与原始标识的映射表单用来还原标识符。根据GDPR和CCPA等法律的要求,这些密钥或者映射表单等可用来还原标识符的“额外信息”需要与假名化后的个人信息分开存储以保证个人信息的安全。特别需要注意的是,假名化虽然可以在一定程度上可以减轻数据主体的风险和帮助数据控制者满足数据保护的义务。但相比下文将会提到的去标识化与匿名化措施相比,假名化后的信息仍然是个人信息,因而采用假名化技术处理的个人信息不能排除相关个人信息保护法律法规的适用。

去标识化

        相比假名化,去标识化的概念更加复杂,在不同的地区可能有着不同的定义和法律效果。去标识化主要出现在美国和加拿大等地的隐私法律中,中国的《个人信息安全规范》亦有相关的规定,具体条文如下表所示:

        从上述规定可以看出,去标识化是指一种对标识符进行处理,使其处理后的信息无法识别到特定个人信息主体的数据处理方式。其中中国的《个人信息安全规范》和《个人信息去标识化指南》与美国和加拿大等地区相关法律关于去标识化的定义最大的区别在于防止重识别是否需要考虑间接识别的可能性。中国限定了重识别时“不借助额外信息”,即否定了“间接识别”的情形,这一点与GDPR中的假名化非常类似;而CCPA和HIPAA等法律对防止重识别提出了要求更高,需要考虑到结合其他额外可能获得的信息综合评估重识别的可能性,其更接近下文将提到的匿名化技术。

        除了定义上的区别,去标识化的法律效果在国内与美国和加拿大等地有着本质的区别。CCPA、HIPAA等法律都规定,经过去标识化处理的个人(健康)信息不再属于个人(健康)信息,从而不再适用CCPA、HIPAA和FIPPA等法律的约束。与之相反,在《个人信息安全规范》中,人信息经过“去标识化”后仍是个人信息。同样,与GDPR中的假名化类似,虽然去标识化后的数据仍然是个人信息,但是《个人信息安全规范》仍推荐个人信息控制者进行去标识化处理以减轻泄露个人信息的风险和其他法律效果。下表为相关条文:

        虽然不同地区的去标识化在重识别标准或者法律效果上有显著差异,但是在实现技术上各国的规定大同小异。根据《个人信息安全规范》3.15条,去标识化的方式有假名、加密和哈希函数等技术手段;《去标识化指南》给出的常用去标识化技术有统计技术、密码技术、抑制技术、假名化技术、泛化技术和随机化技术等等;《HIPAA去标识化指引》给出的去标识化技术有抑制技术(Suppression techniques)、泛化技术(Generalization)、置换技术(Perturbation)等。可以看出,假名化实质上是去标识的一种技术手段,ISO-TS-25237-2008中也认为假名化是去标识化的一个子类(Subcategory)。与假名化类似,在进行去标识化处理后,个人信息控制者通常保留着可用于重识别个人信息主体的信息,这也是去标识化与下文即将提到的匿名化的一个显著差异。比如在《信息安全规范》6.2条规定,进行去标识化处理后需要“采取技术和管理方面的措施,将可用于恢复识别个人的信息与去标识化后的信息分开存储并加强访问和使用的权限管理”;HIPAA 第164.514(c)条规定,个人信息控制者可以分配代码(code)或者其他识别方式(other means of record identification)给去标识化的信息,以使得后续能够进行重新识别。因此,从某种意义上来说,去标识化所规定的“无法重新识别”主要针对的是个人信息控制者以外的其他信息接收者。相比去标识化,下文将介绍的匿名化所规定的防止重识别通常还包括了个人信息控制者本身。

匿名化

        匿名化与去标识化的概念经常容易混淆,有些地区将这两个概念替换使用,而有些地区对匿名化与去标识化有着不同的定义。匿名化的概念主要在中国、欧盟、日本和新加坡等地的数据保护法的语境下出现,具体定义如下表:

        从上述定义可以看出,匿名化与去标识化的目的都是对个人信息进行处理,使处理后的信息即使结合其他额外信息也无法识别到特定个人信息主体。此外,在法律效果上,除了日本的《个人信息保护法案》36条仍然规定控制者处理匿名化后的信息仍需遵循相关要求,匿名化与美国等地区的去标识化效果一致,即匿名化后的信息不再属于个人信息。但是相比去标识化,大多数法律对匿名化还要求匿名化后信息的不可复原性。欧盟WP29工作组在《Opinion 05/2014》中给出了不可复原性的两个要求:1)重识别的主体为个人信息控制者自身或其他第三方, ISO/IEC 29100:2011(E)2.2条关于匿名化的定义也是这一观点;2)需考虑到所有合理可能使用的重识别方法。如果基于该标准,那么上文所述的去标识化明显无法满足匿名化的要求,因为去标识化后的个人信息控制者通常保留了用于还原或重识别的信息。基于此,正如美国教育部下属PTAC(Privacy Technical Assistance Center)发布的《数据去标识化:基本术语概览》和NIST发布的《个人可识信息保护指引》提到的,如果用于复原或者重识别的信息不再存在,那么该去标识化信息可以认为是匿名化信息。

        《网络安全法》第42条对个人信息的处理提出了诸多限制,但是同时也提供了免除这些限制的例外情形,即“经过处理无法识别特定个人且不能复原”。虽然法律条文没有明确使用“匿名化”的表述,但《<网络安全法>释义》提到42条为借鉴国外关于匿名化的规定制定的条款。42条在法律层面上给出了匿名化的效果,即不再适用《网安法》42条的限制要求。与之配套的国家标准《个人信息安全规范》3.14条再次明确了匿名化的“不可复原性”,以及匿名化后的信息不再属于个人信息。但是,中国语境下的匿名化仍有许多不清晰的地方,比如重识别的主体是否限制在控制者之外的第三方和“无法复原”的具体程度要求等等,需要新的立法或相关标准来界定。

        匿名化与去标识化的技术实现手段大同小异,参考WP29的《Opinion 05/2014》、HIPAA的《去标识化指引》、加拿大安大略省信息与隐私委员会发布的《结构化数据的去标识化指南》、新加坡个人数据委员会发布的《匿名化指南》和国标《个人信息去标识化指南》等指南文件,匿名化与去标识化的技术主要有假名、抑制、泛化、随机化等等。由于篇幅原因,本文将不再详述这些技术。

        通常来说,匿名化的第一步是针对直接标识符进行脱敏处理,比如将直接标识符假名化、加密、抑制或者屏蔽等等;其次,再对间接标识符进行泛化或者随机化,但是需要注意,泛化或者随机化程度越高,虽然安全性就越高,但是同时数据的可用性也就越低,因此,对数据处理时还需要对数据的可用性进行考虑,在匿名性与可用性之间达到一个平衡。此外,差分隐私和K-匿名模型的发展也为匿名化信息重识别风险评估提供了量化标准。但无论如何,不存在完全无法复原的匿名化信息。因此,在进行匿名化时,除了匿名化技术手段的使用,管理手段的使用也非常重要,比如控制者需要事先考虑匿名化后的数据使用场景和目的等,以此决定匿名化处理到什么程度以满足可用性的要求,以及考虑数据接收方可能具有的背景知识以及重识别技术能力等,决定一个可接受的重识别风险阈值,从而制定一个可行的匿名化方案;匿名化处理后,控制者需要进行重识别风险评估,以保证匿名化达到了要求;最后,持续的对匿名化效果进行跟踪也非常重要,随着时间推移,重识别技术和攻击者的重识别能力都在变化,因此需要定期进行去重标识风险评估,并与可接受的风险阈值进行比较。

总结

        综上所述,数据脱敏作为一个技术用语,并没有出现在各地区的法律当中;加密技术作为一种假名化、去标识化或者匿名化的技术手段,其本身单独使用并不能达到去标识化与匿名化的要求,需要结合其他技术手段使用;假名化是指用生成的假名来替代直接标识符,使得不借助额外信息的情况下无法识别出个人信息主体的技术,其本身也是去标识化或者匿名化的一种技术实现方式;而去标识化在不同地区有着不同的定义,比如中国语境下的去标识化信息仍然属于个人信息;而在美国加拿大等地区的相关法律中,去标识化后的信息不再属于个人信息。此外,去标识化的标准在这两种语境下也不一样;而匿名化同样作为一种免除个人信息保护法限制的手段,相比去标识化有着更严格的要求。此外,去标识化或匿名化不单单是只靠技术手段就能实现,还需与管理手段相结合才能确保个人信息的安全。

参考文献:

1.朝乐门:《数据科学》,清华大学出版社2016年版。

2.张焕国,唐明:《密码学引论》,武汉大学出版社2015年版。

3.密码破解的利器——彩虹表(rainbow table),https://www.jianshu.com/p/732d9d960411,2020年9月11日。

4.Introduction to the hash function as a personal data pseudonymisation technique, https://edps.europa.eu/data-protection/our-work/publications/papers/introduction-hash-function-personal-data_en,2020年9月12日。

5.Opinion 05/2014 on Anonymisation Techniques,https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf,2020年9月12日。

6.GB/T 35273-2020,信息安全技术 个人信息安全规范。

7.GB/T 37964-2019,信息安全技术 个人信息去标识化指南。

8.Guidance Regarding Methods for De-identification of Protected Health Information in Accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule,https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html#protected,2020年9月12日。

9.Guide to Protecting the Confidentiality of Personally Identifiable Information(PII),https://nvlpubs.nist.gov/nistpubs/Legacy/SP/nistspecialpublication800-122.pdf,2020年9月12日。

10.ADVISORY GUIDELINES ON THE PERSONAL DATA PROTECTION ACT FOR SELECTED TOPICS,https://www.pdpc.gov.sg/guidelines-and-consultation/2020/02/advisory-guidelines-on-the-personal-data-protection-act-for-selected-topics,2020年9月13日。

11.Data De-identification: An Overview of Basic Terms,https://www.mask-me.net/Downloads/data_deidentification_terms.pdf,2020年9月13日。

12.杨合庆:《中华人民共和国网络安全法释义》,中国民主法制出版社2016年版。

----------------------

个保法下的数据中台建设(二):数据去标识化与匿名化(加解密方案)-阿里云开发者社区 (aliyun.com)icon-default.png?t=N7T8https://developer.aliyun.com/article/826092

一、去标识化

        在讲解去标识化的应用之前,我们先来看下个保法中,对于去标识化、匿名化、个人信息是怎么解释的:

去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。

匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。

个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息

我们可以得到两个关键信息:

1、完全匿名化处理的信息,不属于个人信息范畴。因此,如果不是为了当前的业务诉求,而是为了分析、算法训练等场景,是可以保存个人信息的,前提是个人信息已经匿名化,如使用内部ID代替手机号码来进行算法训练。

2、匿名化比去标识化的程度更深。去标识化后的数据借助额外信息可以识别到特定自然人,匿名化后的数据无法识别且不能复原。

但是对于什么样的技术手段算是去标识化,什么样的技术手段算是匿名化目前还没有明确的进行界定,且部分情况下两者的界限并不明显,因此对于这类操作,我们目前统称为去标识化。后续如果国家出具了更加详细的规定,我们在新文章里在进行解读。

二、去标识化的方法与场景

首先,我们先来看下去标识化的方法。根据我们处理方式的不同,去标识化的方法也多种多样,以下列举了常用的去标识化的手段:

去标识化方法

使用场景

脱敏-遮盖脱敏

遮盖脱敏适用于临时的、仅查看的数据脱敏,因为数据脱敏后无法复原,且不同的内容脱敏后可能是同样的结果,所以遮盖脱敏并不适用于数仓等场景。

举例:如姓名遮盖,“张三” 变成 “*三”

适用场景:数据查看、动态脱敏

脱敏-哈希脱敏

虽然存在潜在的撞库风险,但是哈希脱敏后的结果可以认为是不可复原的,尤其是加盐哈希脱敏之后的数据,可以认为除了知道算法和盐值的人之外,几乎无法碰撞出原值,有很好的保密性能。同时哈希脱敏之后的值具有较好的区分性,可以用来进行碰撞等操作,所以也适用于不需要原值的数据仓库业务

举例:SHA算法、MD5算法和对应的加盐算法

适用场景:数据查看、动态脱敏、数据仓库(不需要复原 / 不允许复原)

加解密

加解密方案支持使用算法对数据做完整的加密和解密操作,在隐藏敏感信息的前提下,能完整的对数据进行分析和加工处理,同时在有需要的时候,还可以对数据进行解密,是整体上最为推荐的方案

举例:对称加密算法AES、非对称加密算法RSA等

适用场景:数据查看、动态脱敏、数据仓库(需要复原)

映射替换

映射替换是在数据入库前,对数据的关键信息进行表的映射,并将映射表单独加密保存。常见的比如将用户注册的手机号使用用户账号或者用户id存储进数据仓库,进行数据分析;业务需要使用时,再出库关联回原来的手机号等,这样既可以做到敏感数据的脱敏,也可以正常实现业务的分析

举例:将手机号17816812345替换为内部ID12345

适用场景:数据查看、动态脱敏、数据仓库(需要复原)

统计汇总

统计汇总是指直接抹去和个人有关的信息,仅保留业务部分的内容,比如时间、门店、金额;或者将业务所需要的信息,按照所需粒度,统计为最终数据之后才进入数据仓库,比如不同地区、不同日期的营业额;该方法会损失大量原始数据,仅适用于小部分对详情不敏感的统计类业务

举例:10个用户的消费账单,转化为当天的总收入。

适用场景:少部分的数据分析场景

而在数据的处理中,有以下几个场景需要对敏感数据做到保护:

去标识化场景

详情

数据集成

数据集成是数据批量输入输出的接口,是对数据去标识化要求最高的场景。通用的做法是对入库的数据按照数据中台的标准进行加密,在出库时按照中台的标准或者业务系统的标准进行相应的加密/解密

数据服务

数据服务一般是数据对外服务的窗口,经常涉及到明细数据或者汇总数据的查询,一般来说数据服务都是根据业务场景和合规情况进行设计的,且一般都会比较重视性能,通过权限控制即可;在影响重大的场景,则可能需要对数据进行单独的加密/脱敏

数据开发

对于数据中台内的数据开发场景,则会有很多中灵活的处理方式。对于绝密数据,可能入库进行加密,只有少部分人才能够进行解密操作;对于一般保密的数据,则可以通过加密或者动态脱敏的办法,进行敏感数据的保护。

        需要注意的是,在完整的安全方案中,都会有一个不稳定的因素,也就是每个场景下操作的“人员”。所以,在安全的技术方案之外,想要达到理想的安全保障,对于人员的权限体系,也要做严格的权限控制和分配。

三、去标识化方案

        以下用数据集成和数据研发为例,讲解在数据中台建设中的去标识化方案。如上文所诉,因为个保法发布后,我们认为数据进入中台前最好是经过去标识化的,所以我们用加解密来进行方案的解释。如果实际业务中不需要这么复杂的功能,比如只需要进行脱敏或者映射替换,则可以根据实际情况灵活调整。

1、透明加密方案(含出库脱敏)

1、方案原理

        目前大部分数据源在底层存储上,都支持加密存储,有一些还提供透明加解密能力(数据入库自动加密,数据出库时对白名单自动解密,其他只能读取到加密数据),比如阿里云的Maxcompute,而我们就可以借助数据源的透明加解密功能,结合Dataphin的敏感数据保护功能一起,实现敏感数据的去标识化。

2、优缺点分析

        优点:借助数据源能够快速实现入库数据加密;同时借助数据源的底层能力,在性能上有一定优化。

        缺点:在加解密的灵活性上,如灵活指定加解密算法和密钥、数据出库加密等需求上存在一些差距;同时部分数据源不支持透明加解密、需要解决方案和实施的同学提前沟通好数据加解密形式;同时因为是整库加密,无法只针对敏感数据加解密等

3、Dataphin提供的能力:

3.1、对于敏感数据,提供敏感数据识别和脱敏功能,保证日常开发过程中(即席查询,开发写生产),敏感数据不泄漏

3.2、对于需要输出到业务系统的数据,提供静态加密能力,可以自定义上传UDF,通过代码任务生成自定义加密的数据,然后通过集成将加密后的数据输送到业务系统

2、独立加密方案

1、方案原理

        支持完整的加解密算法和密钥的管理;在代码任务和集成任务中,支持加解密算法、密钥的调用;在数据开发任务中,支持更加灵活的加解密工具和动态脱敏等方式实现数据的去标识化。

2、优缺点分析

        优点:方案完整,客户完全可控(包括加密方式、密钥等),不会受到底层数据源能力的限制。

        缺点:对部分复杂的加密算法来说,性能上存在一定的损耗。

3、Dataphin提供的能力

3.1、内置的加解密函数

3.2、支持在数据集成、数据开发中调用数据加解密算法

3.3、支持密钥的生成、注册、权限管理和调用(1期优先支持集成任务,支持全局参数之后支持代码任务)

3.4、同时支持数据的分类分级和动态脱敏等功能的使用

备注:

方案1和方案2并不是互斥关系,方案2(独立加密)也可以是方案1(透明加密)的升级版,即在透明加解密的基础上,在关键节点自定义加解密方案。

  • 5
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值