虚拟专题:联邦学习 | 联邦可视化:一种隐私保护的可视化新模型

来源:智能科学与技术学报


联邦可视化:一种隐私保护的可视化新模型

魏雅婷, 王智勇, 周舒悦, 陈为

浙江大学计算机辅助设计与图形学国家重点实验室,浙江 杭州 310058

【摘  要】概述了联邦可视化的概念、框架、方法与应用。联邦可视化框架能够在不进行数据整合的情况下,针对具体任务和特定场景进行加密训练,得出反映全体数据特征的可视化模型。联邦可视化是联邦学习框架在可视化领域的拓展应用,主要强调在保障数据隐私的前提下,互利共赢的联邦协作方式在对多数据源数据进行可视分析方面的应用,以打破各领域、各行业的数据壁垒,实现数据与知识的共享。

【关键词】 联邦学习 ; 数据隐私 ; 视觉特征 ; 数据可视化 ; 人工智能

【引用格式】魏雅婷, 王智勇, 周舒悦, 陈为.联邦可视化:一种隐私保护的可视化新模型

[J]. 智能科学与技术学报, 2019, 1(4): 415-420.

1.引言


近年来,在大多数行业中,行业之间的竞争、行政手续、数据隐私安全等问题,使得数据是以孤岛的形式存在的,甚至有时同一个公司的不同部门之间也无法实现数据互通。这一困境严重阻碍了各类数据科学技术的落地。

数据的全面与否将直接影响数据可视化分析结果的准确性。使用片面的数据进行可视分析往往会使得结果和真实情况大相径庭。尤其是当前数据可视化在安防、交通、金融等领域扮演着十分重要的角色,分析结果的偏差可能会带来严重损失。

与此同时,通过数据整合的方式来解决数据孤岛问题逐渐变得不可行。一方面,随着大数据的进一步发展,人们越来越重视数据隐私和数据安全,保障用户数据隐私是企业获得用户信任的前提。用户数据的每一次泄露都会引起媒体和公众的极大关注,如Facebook的数据泄露事件引发了大范围的抗议行动。另一方面,各国也在通过法律手段加强对数据隐私和数据安全的保护。2018年5月25日欧盟开始实施《通用数据保护条例(general data protection regulation,GDPR)》,GDPR旨在保护用户的个人隐私和数据安全,它要求经营者必须使用清晰、明确的语言来表述自己的用户协议,同时用户拥有抹除数据的权利,即用户可以要求企业删除其个人数据并停止利用其个人数据进行建模,违背该条例的企业将面临巨额罚款。同样,我国在2017年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》也指出,网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。

在机器学习领域,学者面临着相似的困境。表现良好的模型背后往往需要数量大、维度高的优质数据,而在实际产业界中,除了有限的几个行业,很多领域存在着数据有限且质量较差的问题,其拥有的数据不足以支撑人工智能技术的实现。因此,联邦学习应运而生,它能够在保障数据安全的前提下,打破数据孤岛。

受到联邦学习的启发,本文提出一个框架,能够在保障数据隐私的前提下,对分布在不同机构的数据进行可视化,即联邦可视化。在传统的数据可视化流程中,视觉编码决定需要的特征数据,并从数据库中读取这些数据。而在联邦可视化中,可视化的特征数据将不再通过查询数据库直接获取,而是通过由各方机构共同完善的模型计算得到。

2.相关工作

2.1 隐私保护

在隐私保护的数据挖掘领域,句法匿名模型和差异隐私模型是 2 种常用的隐私模型,它们从不同的角度解决隐私问题。k-匿名模型是语法匿名模型的代表之一,其目标是通过链接公共数据库和私有数据库中共存的准标识符防止重新标识,使 k 条记录彼此相同,防止身份泄露(因为攻击者无法识别特定的个人),但是,k-匿名模型在防止属性泄露方面有其缺点:如果具有相同准标识符的个人也具有相似甚至相同的敏感属性值,则某些敏感信息仍然可能泄露。随后,研究人员提出了l-多样性模型和t-紧密度模型来分析隐私保护泄露数据挖掘中的属性公开风险。差异隐私模型主要用于匿名化查询响应,是通过将从确定的分布中选择的随机噪声添加到真实查询结果中的方式实现的。

在隐私保护数据可视化领域,研究人员已经对数据挖掘社区的模型进行了修改和扩展,以在匿名可视化表示中的隐私与实用性之间取得平衡。参考文献讨论了当使用平行坐标表示多维数据时,应用语法匿名化方法(即 k-匿名性和 l多样性)的策略。参考文献将重点放在事件序列数据上,为数据所有者提供视觉界面,检查潜在的隐私问题并根据算法建议和自己的判断微调结果。参考文献着眼于多属性表格数据匿名化和图数据隐私保护,设计一种可以辅助用户定制既能保护隐私,又能降低实用性损失的隐私保护方案,但是需要用户进行一些复杂的交互。参考文献利用屏幕空间的不确定性来防御攻击。参考文献在系统后端已经拿到各方数据的基础上,通过向可视化图表中加入不确定性来保护隐私。

本文从数据层面出发,提出不同于传统可视化的新框架,使攻击者完全触碰不到原始数据,而且数据持有者不需要进行复杂的交互即可定制隐私保护方案。

2.2 AI与可视化

将可视化与传统机器学习技术结合以构建人在回路(human in the loop)分析流水线,一直是视觉分析的核心目标、循环神经网络(RNN)、生成对抗网络(GAN)、深度强化学习网络(DQN)以及深度生成模型。这些工作本质上是利用可视化技术解释、优化 AI模型,即用可视化技术解决AI中的问题(VIS for AI)。与之相反,本文提出的联邦可视化框架是利用 AI 模型(联邦学习模型)解决可视化中存在的隐私保护问题,即用 AI 技术解决可视化中的问题(AI for VIS)。

AI for VIS这个概念目前被很多领域专家认可,是可视化领域一个非常有发展前景的方向。近几年,在可视探索、图绘制、可视化图表推荐与自动生成等领域出现许多优秀的研究工作,它们使用 AI 模型解决可视化中存在的各种问题。

2.3 联邦学习

联邦学习的概念最早于2016年由Google公司提出,当多个数据拥有方(如企业)

8aed0bfa69af4b7eef535f24ca3e2aae.png 想要联合其他数据拥有方的数据Di训练机器学习模型时,传统做法是把数据整合到其中一方,利用数据c0b7af5e040f72be8290a96b068bef81.png进行训练,并得到模型M_sum。但是,这种做法在没有得到用户同意的情况下是违反隐私和数据安全的相关法律的,通常难以实施。因此联邦学习应运而生,在联邦学习中,数据拥有方 Fi可以在不给出己方数据Di的情况下进行模型训练,得到模型M_fed,并能够保证模型M_fed的效果(V_fed)与模型 M_sum 的效果(V_sum)的差距足够小,即|V_fed-V_sum| <δ,其中δ是任意小的一个正值。

杨强[37]教授根据参与训练的数据分布情况将联邦学习分为 3 类:横向联邦学习(horizontal federated learning)、纵向联邦学习(vertical federated learning)和联邦迁移学习(federated transfer learning,FTL),如图1(a)所示。联邦学习框架如图1(b)所示,各客户端在不上传本地数据的前提下,训练本地模型,并将梯度值上传到服务端;服务端将所有梯度值平均分发给各客户端;客户端更新本地模型,这个迭代过程持续到模型收敛或人为结束训练。

44636e9f89d4b22c4b3ba43bc2a19a61.png

图1   联邦学习

3.联邦可视化框架

本文借鉴联邦学习框架提出适用于可视化领域的联邦可视化框架,解决可视化分析中的数据孤岛问题。联邦可视化框架的核心思想是得到一个反映全体数据特征的可视化模型,在各个数据拥有方的数据不离开本地的情况下进行加密训练。

3.1 可视化模型

可视化映射是信息可视化的核心步骤,指将数据信息映射成可视化元素,映射结果通常表达直观,易于理解和记忆。可视化元素由3方面组成:可视化空间、标记和视觉通道。数据由属性和值构成,属性与标记对应,值与视觉通道对应。其中,标记是数据属性到可视化元素的映射,用以直观地表示数据的属性归类,如点、线、面、体等;视觉通道是数据属性的值到标记的视觉呈现参数的映射,用于控制标记的视觉特征,通常可用的视觉通道包括标记的位置、大小、形状、方向、色调等,标记和视觉通道的结合可以完整地将数据信息进行可视化表达。

假设V是一个可视化图表,一般地,可以将其分解成多个视觉特征集,表示为V={VF1,VF2,…,VFn},其中,VFi={vfi1,vfi 2,…,vfin}是一个视觉特征集,由多个视觉特征组成。例如,直方图只有一组视觉特征,每个视觉特征的作用是编码柱子的高度(如图2(a)所示);热力图也只有一组视觉特征,每个视觉特征的作用是编码每个小方格的颜色(如图2(b)所示)。

f41102137072a01447253f9e87ed5e66.png

图2   视觉特征集示例

3.2 框架架构

本文以包含3个数据拥有方(即企业A、B、C),且每个数据拥有方有相同的用户特征和不同的用户(即横向联邦学习)的场景为例,介绍联邦可视化的框架(对该框架的细节设置进行调整,即可扩展至更加复杂的数据分布情况)。这些企业仅使用各自拥有的数据进行数据分析。假设这3家企业想联合起来看整体数据的数据分布特点,出于数据隐私保护和安全考虑,3 家企业无法直接进行数据整合,但是可以使用联邦可视化框架建立可视化模型,使各个企业看到近似的数据全貌。联邦可视化的框架与运行机制如图3所示。

55165c0c66da67249ef55711acd3a00a.png

图3   联邦可视化的框架与运行机制

为保证训练过程中数据的保密性,需要借助第三方协作者服务器(Server)进行加密训练。以热力图为例,训练过程可分为以下4步。

• 数据预处理。各个企业将本地的地理数据根据经纬度统一用n × m的网格进行划分,并对每个网格中的数据点进行计数。

• 初始模型分发。基于联邦学习,Server端初始化一个模型M_fed,将参数发送至各个企业。如在热力图的实例中,模型M_fed的输入为一组经纬度对应的网格索引,输出为该网格中的数据点统计量。

• 加密模型训练。各个企业获取Server端发来的参数,根据本地数据计算梯度值,并加密发送给 Server 端。Server 端对各个企业发来的梯度值进行加权平均,更新参数后再次发送给各个企业。

• 可视图表绘制。经过多次迭代,模型逐渐精确。在各个企业本地,对于n × m的地理网格,将每个网格的搜索索引k作为模型M_fed的输入,可以得到对应网格的数据点统计量,即vfk,最终以热力图的形式将n × m的网格数据可视化地表示出来。

在训练过程中,各个企业没有进行本地数据传输,数据隐私得到了保障,同时也使得各个企业可以看到数据全貌,有利于企业间的合作,并且可以辅助企业做出更加有效的决策。

4.实验

基于上述联邦可视化框架架构,本文使用数百万条海口出租车订单数据(包括经纬度信息)做了一个简单的实验,来验证框架的有效性。

4.1 数据预处理

为了模拟多家企业,本文将一份数据集随机等分为3份非独立同分布的数据集,对数据进行以下处理。

• 将海口划分为 360×180 的网格,用(x,y){ x∈[1,360],y∈[1,180]}表示。

• 对每个网格里的数据进行计数,获得数据(x,y,count){x∈[1,360],y∈[1,180]}。

4.2 技术实施

针对上述3份数据,借助联邦平均算法对3个客户端进行加密训练,并拟合整合后的数据,以此保证各方的数据隐私。

在联邦平均算法的配置方面,使用 Python 的SocketIO 开源数据库进行服务器与客户端之间的通信。所有客户端均参与每轮训练,每个客户端训练一轮。

在神经网络设置方面,输入为经纬度索引(x,y),输出为对应网格的计数结果。使用5层宽度为 96 的全连接层,每层均使用线性整流函数(rectified linear unit,ReLU)作为激活函数,优化器采用Adadelta算法,批尺寸设为32。

4.3 实验结果

随着迭代次数的增加,模型输出结果的相对误差的变化情况如图4所示,在训练前期,相对误差降低得较快,在达到一定训练次数后,相对误差的变化速度变慢,需要增加多次迭代才能获得更准确的结果。经过20 000次迭代后,相对误差降到了4.9%,所获得的热力图已经接近将3份数据直接整合的效果。进一步优化训练方法,结果会更加逼近数据直接整合的结果。

4ddfdcb24ca8aadd8259758371fc42b5.png

图4   相对误差随迭代次数的变化曲线(平滑后)

与现有的可视化领域隐私保护方法相比,本文的方法不需要提前整合多个客户端的原始数据,各个客户端的数据不会离开本地,这从根本上保护了数据隐私,并且可以通过控制迭代的次数得到不同精确度的聚合结果。

5.结束语

数据的孤岛分布以及相关部门对数据隐私监管力度的加强是研究领域面临的主要问题。联邦学习的出现为人工智能领域打破数据屏障及人工智能领域的进一步发展提供了新的思路。本文基于联邦学习的思想,提出了联邦可视化框架,用于解决可视化领域的数据孤岛问题。联邦可视化框架的核心思想是将可视化当作模型,在保证数据不离开数据拥有方本地的前提下,加密训练出反映全体数据特征的可视化模型。本文使用简单的实验验证了联邦可视化框架的有效性,即能够帮助多个数据拥有方打破数据壁垒,进行协作分析。

联邦可视化的研究仍处于发展阶段。在隐私性方面,本文提出的联邦可视化方法能够有效避免隐私数据的泄露;在准确性方面,当需要拟合的特征数据小于10 000时,准确率能在数千次迭代后过拟合,而更多的特征数据则需要更多的迭代次数;在通用性方面,本文的方法只考虑了表格型数据,可以绘制常见的可视化图表,比如柱状图、饼图、热力图等。联邦可视化是联邦学习在可视化领域的应用,具有重要的、前瞻性的实际意义,是打破数据壁垒的有效途径,具有巨大的应用前景,同时,更加复杂的应用场景也值得学者们进一步研究。

联系我们:

Tel:010-81055448

       010-81055490

       010-81055534

E-mail:bdr@bjxintong.com.cn 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作:010-81055307

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

d0f22a0df6e4f6b9bfffd8e55f2447b7.png

关注《大数据》期刊微信公众号,获取更多内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值