大数据及其隐私保护

本文探讨了大数据时代隐私保护的重要性,包括k-匿名和差分隐私模型,指出即使匿名化处理仍存在隐私泄露风险。文章还讨论了位置服务的隐私问题,以及大数据隐私保护面临的挑战,如隐私度量、理论框架、可扩展性、数据异构性和算法效率。最后,提出了量子计算在隐私保护中的潜力和跨学科研究的重要性,以及开发新隐私保护框架的必要性。
摘要由CSDN通过智能技术生成

大数据及其隐私保护

方贤进, 肖亚飞, 杨高明

安徽理工大学计算机科学与工程学院,安徽 淮南 232001

摘要:在对大数据进行发布或数据挖掘的过程中,隐私泄露是人们最关心的问题,但目前关于大数据隐私保护的研究还处在初级阶段。介绍了有关隐私保护系统的基础知识,包括数据参与角色与数据操作的定义,给出了隐私保护系统的数学描述与隐私度量方法,分析了隐私保护的数学模型,包括k-匿名模型与差分隐私模型。回顾了基于位置服务的隐私保护及其应用,总结了大数据时代隐私保护的挑战与机遇,指出了用于改进现有隐私保护方法的研究方向,以满足大数据前所未有的各种计算需求。

关键词:大数据;k-匿名;差分隐私 ;隐私模型

doi:10.11959/j.issn.2096-0271.2017051

640?wx_fmt=jpeg

论文引用格式:方贤进, 肖亚飞, 杨高明. 大数据及其隐私保护[J]. 大数据, 2017, 3(5): 45-56.

FANG X J, XIAO Y F, YANG G M. Privacy preserving in the age of big data[J]. Big Data Research, 2017, 3(5): 45-56.

640?wx_fmt=jpeg

引言

根据维基百科的定义,大数据(big data)是指一个特殊的数据集,其足够大而复杂,并且传统的数据处理应用软件不能对它进行有效处理。大数据面临的挑战包括大数据的获取、存储、管理、搜索、共享、传输、可视化、查询、更新与信息隐私等。一般来说,大数据分析是指预测分析、用户行为分析或者其他高级数据分析方法,并且能够从数据中获取价值。大数据很少是指数据集特别大,毫无疑问大数据的容量确实很大,但这并不是大数据生态系统的最具实质性的特性,正如麦肯锡全球研究所认为“大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(volume)、快速的数据流转(velocity)、多样的数据类型(variety)和价值密度低(value)四大特征”。

数据集的快速增长在某种程度上是因为廉价、大量的信息传感移动设备、遥感设备、软件日志、摄像机、麦克风、射频识别(radio frequency identification,RFID)读取器、无线传感网络设备等采集数据的日益增长。从20世纪80年代开始,人均存储信息容量每40个月大约增加2倍,但截至2012年,每天产生的数据量为2.5 EB,包括人们在社交网络上的聊天记录、发出的照片与视频剪辑、电子文档、电子邮件、Web冲浪的足迹、在电子商务网站上的各种购物行为(包括用户的ID、IP地址、搜索的关键词、页面停留时间、点击链接记录、对商品的打分、购买商品的记录等)、电子支付记录等。另外,在公共场所的摄像头获取的视频、手机定位系统(包括基站和全球定位系统(GPS)定位)留下的路线图、在各种情况下被录下的语音、驾车时的GPS 信号、电子病历档案、公交刷卡记录等被动信息也是大数据的组成部分。还有各种传感器设备自动采集的有关温度、湿度、速度等万物信息,仍然是大数据的组成部分。总之,每个人、每种通信和控制类设备,无论它是软件还是硬件,都是大数据之源。

大数据挖掘是指在大数据集中发现知识、模式的一种计算过程,涉及人工智能、机器学习、统计分析方法、数据库系统等学科交叉。数据挖掘的目标就是从数据集中抽取信息,并且将其转换成可以理解的结构以供未来使用。大数据是信息时代的一个重要里程碑,它对人类社会产生了深远的影响。大数据挖掘能够极大地推进知识、服务以及社会各个领域生产力的发展。但是,针对大数据的数据挖掘和机器学习也对个人隐私造成了巨大的威胁。

随着社交网络和移动互联技术的迅猛发展,各类数据的采集、存储、分析、发布变得方便快捷。众多机构(如医疗机构、保险公司、电子商务公司、社交网站、电信运营商)发布行业数据以供研究,各种大数据分析公司、大数据分析竞赛等更是层出不穷。张华平等人[1]根据1 700万条新浪微博对微博生态系统进行深度分析,从而掌握了新浪微博用户的各种宏观信息,构建了用户影响力模型,并深入研究了用户意图,反映了“大数据环境下无隐私”的状况;2006年,美国在线租赁公司网飞(Netflix)公司投资100万美元举办了一个为期3年的推荐系统算法竞赛,并发布一些经过匿名化处理的用户影评数据供参赛者测试。来自美国德克萨斯大学奥斯汀分校的两位研究人员利用该数据与公开的互联网电影数据库(internet movie database,IMDb)用户影评数据之间的相关性,将网飞公司的一部分匿名用户与公开的IMDb用户进行了对应,并获得了IMDb用户在Netflix网站上观看的电影信息(包括涉及敏感题材的影片)[2]。2013年8月,美国通用电气公司公布了由美国FlightStats公司提供的航空数据,希望参赛者开发出能够实时控制航班飞行路线、速度、高度和管制空域的模型,进而优化航班的总体运行效率;美国好事达保险公司提供2005—2007年的保险数据(包括具体的汽车情况及每辆车相关的赔偿支出次数和数量),悬赏1万美元寻求解决方案,希望更准确地预测汽车伤害索赔,以便优化保险定价方案。随着移动定位服务的流行,阿里巴巴和蚂蚁金服逐渐积累了来自用户和商家的海量线上线下交易数据。蚂蚁金服的线上到线下(online to offline, O2O)平台“口碑商家客流量预测系统”利用用户浏览行为数据(用户ID、商家ID、浏览时间)、用户支付行为数据(用户ID、商家ID、支付时间)、商家特征数据(商家ID、城市名、所在位置编号、人均消费、评分、评论数、门店等级)等为商家提供包括交易统计、销售分析和销售建议等在内的定制后端商业智能服务,为每个商家提供销售预测。基于预测结果,商家可以优化运营、降低成本,并改善用户体验,从而使该系统成为更加智能的商业平台,更好地服务社会。

由于数据集之间存在相关性,即使将数据进行匿名化处理,仍可导致各种敏感或隐私信息的泄漏[3]。而且࿰

  • 2
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值