1. 背景信息
有个有趣的问题,刚好最近有讨论到,在这里也抛一下,就是隐私计算中我们经常谈到主流的一些技术,比如联邦学习、多方安全计算、安全求交、匿踪查询、可信执行环境等,然后笼统地会称这些技术实现了对隐私的保护。然而有一个特别好玩的事情,那就是如果某个数据源方,提供多套的业务服务,且业务之间的数据存在关联,那么很可能会存在原始数据泄密的问题。这个问题似乎一直没有看到有相关厂商谈及,今天作为一个开放性问题抛出来大家一起探讨。
2. 关于匿踪查询的原始数据暴露问题讨论
首先我们来看匿踪查询,其定义:匿踪查询,是一种确保用户在查询信息时,其身份和查询内容不被泄露的技术方案。PIR的主要目的是保护用户隐私,确保服务器无法知道用户查询的具体内容,同时具有严格访问控制,用户只能访问其查询的数据,其他数据对用户完全隐藏。
从该定义就可以看出,匿踪查询并不保护数据源方的原始信息,而只是保护查询方的查询行为不被数据源方探知。因此数据源方的被查询信息最终是被查询方明文获得的。这个关键信息点,在实际业务中,需要被强烈关注,提供匿踪查询的数据源,需要特别小心审查,什么数据可以被查询,可以对外服务,否则可能引来数据合规风险。
匿踪查询根据业务的不同,分为单条查询和批量查询,其中单条查询的风险异常高,因为可能直接涉及到个体信息的暴露。假设数据源方提供黑名单信息的查询,查询方提交某个查询用户id,通过黑名单匿踪查询服务,获取到该个体用户id是否击中黑名单。更进一步,如果提供的是用户的原始数据信息,比如医疗体系中的查询,某个用户是否存在某种症状。这样的业务都会直接暴露个体隐私信息,与国家针对个体数据保护初衷相悖。因此数据源方提供的查询服务,一定要尽可能审查和评估。匿踪查询不解决原始数据暴露的问题。
那么有没有什么方法可以规避? 答案是肯定的。第一种方案,就是提供查询的数据是不涉及个体隐私,或者经过个体授权。第二种方案,则采用群体信息来解决,引入批量匿踪查询,同样还是黑名单查询,假设查询方提交了一批用户id,数据源方不直接返回单条处理的密文数据,而是需要进行聚合计算。比如计算出一个密文状态下的比例信息,即当前查询批中有多少比例的黑名单用户。这样查询方拿到密文结果后解密,只能得到批群体信息的某种特征,而不是具体到个体信息。还有就是采用匿踪联盟的方案,最终查询方仅拿到多方聚合之后的结果,也可以规避某一个单方数据源信息的直接泄露。这里仅讨论有限的规避方案,还有更多的一些其他技术手段。
另外,关于同一数据源的访问次数限制问题,如果是无限次,是否存在被分析出某种分布,或者原始信息被拖库的风险,是否需要针对特定查询方对于特定数据源的查询频率限制?是否需要定期对数据源做一定的变换处理,以减少某种隐患?还有对于匿踪查询结算定价的策略设置,是否也需要起到一定的查询频率的限制作用?开放性问题,欢迎探讨。
3. 关于单数据源多种隐私计算服务的原始数据暴露问题讨论
隐私计算中,比如联邦学习、多方安全计算、安全求交等安全性问题,往往是针对独立的算法本身去探讨,这方面的研究很多,但是如果多种不同的技术都在单一数据源进行提供,这也是业内的现状,隐语、蓝象、洞见、富数都是综合性的技术厂商,都可以提供各种不同的技术,因此机构引入相应的厂商引擎后,往往就具备了多种不同隐私计算服务的能力。单数据源同时提供多种不同的隐私计算服务,假如使用不当,会存在原始信息泄露的隐患。
最明显的,就是联邦学习中,引入安全求交算法。普通的安全求交,计算方之间是会共享交集结果,这种是明显的敏感数据泄露问题。这方面的安全保护进展,可以看富数、微众、蓝象等相继推出的全匿踪联邦学习技术。
另外,联邦学习算法,往往对于标签信息的保护是最关键的。假设A、B两方进行联合风控建模,A方持有特征,B方持有标签为用户是否为逾期黑名单人员,是典型的分类任务。假如B方节点还具有黑名单匿踪查询服务,那么A方完全可以通过与B方进行匿踪查询得到黑名单是否击中的个体样本标签信息,即使是少量的标签,也可能足够A方在自己本地训练模型,一方面B方泄露了个体标签信息,另一方面A方绕开了必须与B方进行联邦学习的限制,对于B方来说损失惨重。所以对于B方,需要非常小心,从全局上考虑各种隐私计算对外的服务之间,是否存在数据泄露的风险和挑战。进一步,A方还可以利用与B方在联邦学习中的安全求交,来缩小匿踪查询的量级,对于B方来说,雪上加霜,火上浇油。
其他如安全多方计算,虽然其本身是属于可证安全的密码学原语,但是在实际业务中同样可能存在数据泄露风险。比如仅有两个数据方进行多方安全加法的计算,且其中一方为结果获取方,那么结果获取方完全可以反推另一方的原始数据,这不是MPC本身能解决的问题,而是一种业务本身的问题。因此一般实际场景中,两方之间不允许做非常基础的简单的计算任务,需要设置比如聚合、非线性、多计算符操作等其他复杂的计算任务。还有的解决方案是结合差分隐私,反馈的数据中包含一定的噪声,但又不影响与原始数据的总体分布一致性。
同样的,可信执行环境,也同样存在一定的安全风险,比如采用侧信道攻击。如果使用的是国外的硬件设备,还可能存在后门风险。
4. 总结
上述内容针对隐私计算技术的使用,抛出了一些关于数据泄露风险的开放性问题。因此在使用隐私计算技术实现各类数据服务,需要通盘考虑安全性,才能做到原始数据的安全保护,更好地推动数据价值流通。