个人信息去标识化框架及标准化
谢安明1,金涛2,周涛1
1. 北京启明星辰信息安全技术有限公司,北京 100081
2. 清华大学软件学院,北京 100084
摘要:随着大数据的发展,个人信息保护面临严峻的安全形势,去标识化有助于平衡个人信息保护要求和数据共享利用需求。分析了国内外去标识化研究现状,结合我国法律有关要求和个人信息保护的迫切需求,提出了个人信息去标识化框架,给出了规范化的去标识化过程指南。考虑到相关工作的推进,结合大数据安全标准体系,提出了去标识化标准规范研究建议。
关键词:个人信息;去标识化;框架;标准化
doi:10.11959/j.issn.2096-0271.2017048
论文引用格式:谢安明, 金涛, 周涛. 个人信息去标识化框架及标准化[J]. 大数据, 2017, 3(5): 20-29.
XIE A M, JIN T, ZHOU T. Personal information de-identification architecture and standardization. Big data research[J], 2017, 3(5): 20-29.1 引言
个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证号码、个人生物识别信息、住址、电话号码等。当前,世界各国政府普遍重视大数据环境下个人信息的安全问题,都着手通过制定法律法规、标准规范和发展信息安全技术来加强对个人信息的保护。
随着信息技术和大数据应用的快速发展,各行各业数据的种类和数量呈指数增长,越来越多的人认识到了数据的价值,意识到了数据开放共享的重大意义。但数据开放共享的同时也带来了个人信息安全保护问题。政府机构、企业和其他组织收集的数据中,通常含有个人姓名、电话、证件号码等信息,如果将收集到的原始数据直接进行发布,会导致严重的个人信息泄露。如何在不泄露用户个人信息的前提下,有效开放共享数据,挖掘大数据的价值,是目前大数据研究领域的关键问题。
近年来,针对个人信息的去标识化研究获得了很多的关注。所谓去标识化,就是指去除一组可识别数据和数据主体之间关联关系的过程。通过这个过程,数据管理者可以删除或改变数据集中的标识信息,使得攻击者很难或不能利用数据集识别出具体的个人主体身份,从而可以将数据集共享到预定范围内使用。去标识化是隐私保护数据发布(privacy preserving data publishing,PPDP)[1]的主要工具之一,通过去除数据集中隐私属性和数据主体之间的关联关系,并且具有足够的防止重识别能力后,数据集的某些属性就可以共享发布,供外部业务系统进行处理分析。
2 相关工作
2.1 有关法律标准
个人信息能够单独或者与其他信息结合识别自然人个人身份,因而价值巨大,国内外对个人信息保护的法律要求和技术研究一直是信息安全的热点内容之一。
美国通过在敏感领域(如儿童信息、医疗档案、金融数据等领域)分散立法和设立行业规范的方式,在政府引导下,规范各行业内个人信息处理行为。相关法律包括《消费者网上隐私法》《儿童网上隐私保护法》《电子通信隐私法案》《健康保险携带和责任法案》等。
欧盟通过立法来保证个人信息安全的各项基本原则和具体的法律规定。1995年,欧盟通过《个人数据保护指令》,对个人数据提出保护框架。2016年通过《一般数据保护条例(general data protection regulation,GDPR)》,以更替《个人数据保护指令》。GDPR提出了更加严格的数据保护要求,从法律层面保证了对个人信息的保护。
2016年11月,我国正式发布《中华人民共和国网络安全法》,其中就加强个人信息保护做出了规定,指出“未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外”;同年12月发布的《国家网络空间安全战略》也强调要有效保护个人隐私;此外,我国《国务院关于印发促进大数据发展行动纲要的通知》《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》《交通运输部办公厅关于推进交通运输行业数据资源开放共享的实施意见》等,都强调了在保证个人信息安全的前提下推动数据的开放共享。在标准制订方面,我国目前已经发布了《信息安全技术公共及商用服务信息系统个人信息保护指南》(GB/Z 28828-2012),目前正在制订《个人信息安全规范》标准。
2.2 技术及应用规范
在标识化技术研究方面,PPDP提出在实现个人信息保护的前提下,保证数据的可用性。业界围