目录
1. 前言
在上一篇文章 【“数据安全流通”知识盘点之技术框架】 中,介绍了什么是数据流通、数据安全流通的界定和意义、以及盘点了当前数据安全流通过程中使用的技术框架。
本文将承接上文,继续盘点据安全流通的关键技术工具。
2. 同态加密
2.1 技术概括
同态加密是指对其加密数据进行处理得到一个输出,将此输出进行解密,其结果与用同一方法处理未加密原始数据得到的结果一致。数学定义为:
如果我们有一个加密函数 F
, 把明文 A
变成密文 A'
,把明文 B
变成密文 B'
,也就是说 F(A)=A'
,F(B)=B'
。另外我们还有一个解密函数
F
−
1
\ F^{-1}\,
F−1 能够将
F
\ F\,
F 加密后的密文解密成加密前的明文。
对于一般的加密函数,如果我们将 A'
和 B'
相加,得到 C'
。我们用
F
−
1
\ F^{-1}\,
F−1 对 C'
进行解密得到的结果一般是毫无意义的乱码。但是,如果 F
是个可以进行同态加密的加密函数, 我们对 C'
使用
F
−
1
\ F^{-1}\,
F−1 进行解密得到结果 C
,这时候的 C=A+B
。这样,数据处理权与数据所有权可以分离,这样企业可以防止自身数据泄露。因此,同态加密可进行如下分类:
- 若满足
F(A)+F(B)=F(A+B)
,则将这种加密函数叫做加法同态; - 若满足
F(A)×F(B)=F(A×B)
,则将这种加密函数叫做乘法同态。
如果加密函数 F
只满足加法同态,就只能进行加减法运算;如果加密函数F只满足乘法同态,就只能进行乘除法运算;如果加密函数同时满足加法同态和乘法同态,称为全同态加密。那么这个使用这个加密函数完成各种加密后的运算(加减乘除、多项式求值、指数、对数、三角函数)。
利用同态加密,可以委托不信任的第三方对数据进行处理,而不泄露信息。因此,同态加密在各领域的数据流通中有重要应用。
2.2 技术方案
考虑数据流通过程中的委托计算场景。使用同态加密技术的委托计算场景涉及两类角色,数据持有方和数据处理方,其技术方案示意图1所示:
数据持有方拥有原始数据,并选择需要保护的敏感属性。在本地生成公私钥对后,使用生成的用户公钥,同态加密原始数据中的敏感属性,得到密文文件。之后数据持有方将密文文件发送给数据处理方,数据处理方对密文文件进行同态操作,在明文数据信息不可知的情况下,生成密文统计结果,此结果和明文状态直接加密得到的处理结果一致。数据处理方得到密文统计结果后,将其返回给数据持有方。数据持有方接收到处理后的密文统计结果,使用用户私钥解密,获取明文统计结果。
3. 零知识证明
3.1 技术概括
在一个零知识证明协议中,证明者向验证者证明一个声明的有效性,而不会泄露除了有效性之外任何信息。使用零知识证明,证明者无需任何事件相关数据向验证者证明事件的真实性。
Jean-Jacques Quisquater和Louis Guillou用一个关于洞穴的故事来解释零知识证明。在图2中,洞穴里有一个秘密,知道咒语的人能打开C和D之间的密门。但对任何人来说,两条通路都是死胡同。假设P知道这个洞穴的秘密,她想对V证明这一点,但她不想泄露咒语。
下面是她如何使V相信的过程:
- 1)V站在A点;
- 2)P一直走进洞穴,到达C或者D点;
- 3)在P消失在洞穴中之后,V走到B点;
- 4)V向P喊叫,要她:从左通道出来,或者从右通道出来;
- 5)P答应,若有必要则用咒语打开密门;
- 6)P和V重复步骤(1)-(5)多次;
若多次重复中,若每次P都从V要求的通道中出来,则能说明P确实知道咒语,并且V不知道咒语的具体内容。
在分布式账本中,需满足群体共识特性,即各方通过共识机制确认数据的合法性,而能达成共识的前提是所有数据在所有方透明可见,其中包括了个人或机构的隐私数据。若不对共识数据做任何处理,将会导致个体隐私数据信息的泄露,引发个体隐私和群体共识的矛盾。零知识证明能提升数据合法性的隐性共识,可以让验证方既不知道数据具体内容,又能确认该内容的是否有效或合法,其应用包括交易有效性证明、供应链金融、数据防伪溯源等。
3.1 技术方案
考虑数据流通过程中的分布式财务数据共享场景。企业可以利用分布式账本进行准确、透明的财务数据记录。各企业的财政数据上链存储,允许跨组织进行标准财务记录,改进财务报告并降低审计成本。
整个过程中,每个企业的财政数据属于隐私信息,各企业希望其财政数据对其余企业不可见。但同时,需对财政数据的正确性进行验证。使用零知识证明技术可为各企业间提供不泄露隐私的认证服务,使其余方在数据真实信息不可知的前提下验证数据的正确性。
零知识证明技术方案如图3所示:
在分布式账本中,企业需将财政数据加密上链存储,包括其资产负债表、上税金额等,同时生成零知识证明π,π能证明:资产负债表中资产合计及负债与所有者权益合计等于对应各项相加总和;企业上税金额等于企业利润总额乘以所得税税率金额。其余方计算并验证π是否成立,验证过程中不泄露企业财政数据。若零知识证明成立,说明企业的财政数据正确可信。验证过程中,需保证只有数据持有企业能生成此零知识证明。
4. 群签名
4.1 技术概括
群签名技术是一种允许一个群体中的任意成员以匿名方式代表整个群体对消息进行签名,并可公开验证的机制。由于群签名能为签署者提供较好的匿名性,同时在必要时又通过可信管理方追溯签署者身份,使得群签名技术在诸如共享数据认证,身份认证及金融合同签署等事务中,发挥重要作用。
群签名被广泛的应用到了各种隐私保护场景中。如大数据应用中的身份和数据的访问认证。在网络的匿名认证中,虽然存在一些匿名认证协议,但是一般情况下,这些匿名认证协议并不提供追责功能。
此外,由于大数据应用一般是多域环境,各个域之间很难统一身份供应和访问认证方式。因此,传统的认证协议并不适用大数据应用。而许多文献研究表明,基于群签名的协议更适合于大数据应用中的身份认证和管理。
4.2 技术方案
基于群签名技术的身份认证方案如图4所示。
群签名方案的实施由群成员和群管理者共同完成,在一个群签名方案中,群管理者创建群,并生成群公钥和群私钥。
群公钥公开给所有用户,群私钥由群管理者自己持有。群成员申请加入群后,群管理者向其颁发群证书,并生成成员公钥和私钥给到群成员。
群成员可利用成员私钥对消息进行签名,其他用户可用群公钥验证该消息来自于该群,但不知具体签名者。只有群管理者可使用群私钥追溯签名者身份。
5. 环签名
5.1 技术概括
环签名是一种简化的群签名,环签名中只有环成员没有管理者,不需要环成员间的合作。在环签名中不需要创建环,改变或者删除环,也不需要分配指定的密钥,无法撤销签名者的匿名性,除非签名者自己想暴露身份。环签名在强调匿名性的同时,增加了审计监管的难度。
保障安全是数据流通的关键屏障。必须通过技术手段保障流通数据安全与用户隐私安全。由于环签名具有无条件匿名性,对于数据流通中的身份隐私保护可以有应用。
- 云存储数据分享的身份隐私保护。数据分享是云存储的一个重要功能,实现数据分享的身份隐私保护是环签名的重要应用领域。
- 用于电子现金或电子投票系统。将环签名方案用于电子现金或电子投票系统,不仅效率高而且安全性也高。
5.2 技术方案
基于环签名的数据流通认证方案如图5所示,用户加入一个环,当需要签署数据时,用自己的私钥和任意多个环成员的公钥为消息生成签名。验签者根据环签名和消息,验证签名是否是环中成员所签。如果有效就接收,如果无效就丢弃。对方对签名进行验证。
<hr>
6. 差分隐私
6.1 技术概述
差分隐私的基本思想是对原始数据的转换或者是对统计结果添加噪音来达到隐私保护效果,相对于传统的隐私保护模型,差分隐私具有以下两个优点:不关心攻击者所具有的背景知识;具有严谨的统计学模型,能够提供可量化的隐私保证。
按照隐私保护技术所处的数据流通环节的不同,差分隐私技术可分为以下两类:
- 中心化差分隐私技术。 将原始数据集中到一个数据中心,然后发布满足差分隐私的相关统计信息,该技术适用于数据流通环节中的数据输出场景。目前中心化的差分技术的研究主要围绕基于差分隐私的数据发布、面向数据挖掘的差分隐私保护及基于差分隐私的查询处理等方向展开。
- 本地化差分隐私技术。 将数据的隐私化处理过程转移到每个用户上,在用户端处理和保护个人敏感信息,该技术适用于数据流通环节中的数据采集场景。目前,本地化差分技术在工业界已经得到运用。
6.2 技术方案
面向公众公开发布数据或数据本身非常敏感时,如果直接向使用者输出数据,可能带来严重的隐私泄露问题,因此在输出数据应集中利用差分隐私技术对数据进行保护。
)
如图6所示,服务端在将数据提供给数据使用方之前,需用差分技术对数据集中进行扰动处理,添加拉普拉斯噪声或指数噪声,保证数据可用性的同时,确保个体的隐私信息不被泄露。
7. 数据标识技术
7.1 数据标识技术
个人信息由唯一辨别个人的标识数据与无法辨别具体某个人的特征数据组成。数据标记技术的原理,是通过处理标识数据,保留特征数据的方法,实现数据流通过程中实现既保护个人信息,又实现数据流通的解决方案。该技术能提供三种基本功能:
- 相同数据标识在不同方不同结果的不可逆转换;
- 相同数据标识在完成转换后的第三方关联性匹配;
- 支持启动第三方关联性匹配所需的合法授权接口。
7.1 技术方案
数据标识标记技术由两个核心功能组成,分别是流通控制机与标识算法机。其中,流通控制机控制整体流通流程,算法机利用负责明文标识转换与不同流通参与方之间的转换后标识的关联性匹配。具体实现分为以下步骤:
- 第一,供应方将分离标识数据与特征数据,并将标识数据通过算法机进行加密处理。此步骤完成了存量个人信息的匿名化处理工作。
- 第二,数据需求方确认需要查询的个人标识,通过算法机获取对应的加密后标识。
- 第三,数据需求方将处理后的标识信息传至流通控制机,控制及等待被查询个人的授权,在通过授权之后向供方侧请求对应标识的特征数据。获取过程中,控制机将确认具体数据供方标识并通过算法机获取关联性匹配后的转换结果,最终在供方侧获取标识对应的特征数据,完成数据流通。
8. 技术工具对比
上述介绍的数据安全流通技术工具对比描述见表 1 所示:
参考资料:
[1]《数据流通关键技术白皮书(1.0)》