【隐私计算篇】隐私计算使用不当也会泄露原始数据

源泉的小广场

已于 2024-09-22 18:17:30 修改

阅读量1.4k

点赞数 33

分类专栏：隐私计算文章标签：隐私计算可信安全数据安全数据保护安全求交匿踪查询数据泄露

于 2024-08-09 14:36:18 首次发布

本文链接：https://blog.csdn.net/weixin_65514978/article/details/141057526

版权

隐私计算专栏收录该内容

37 篇文章

订阅专栏

1. 背景信息

有个有趣的问题，刚好最近有讨论到，在这里也抛一下，就是隐私计算中我们经常谈到主流的一些技术，比如联邦学习、多方安全计算、安全求交、匿踪查询、可信执行环境等，然后笼统地会称这些技术实现了对隐私的保护。然而有一个特别好玩的事情，那就是如果某个数据源方，提供多套的业务服务，且业务之间的数据存在关联，那么很可能会存在原始数据泄密的问题。这个问题似乎一直没有看到有相关厂商谈及，今天作为一个开放性问题抛出来大家一起探讨。

2. 关于匿踪查询的原始数据暴露问题讨论

首先我们来看匿踪查询，其定义：匿踪查询，是一种确保用户在查询信息时，其身份和查询内容不被泄露的技术方案。PIR的主要目的是保护用户隐私，确保服务器无法知道用户查询的具体内容，同时具有严格访问控制，用户只能访问其查询的数据，其他数据对用户完全隐藏。

从该定义就可以看出，匿踪查询并不保护数据源方的原始信息，而只是保护查询方的查询行为不被数据源方探知。因此数据源方的被查询信息最终是被查询方明文获得的。这个关键信息点，在实际业务中，需要被强烈关注，提供匿踪查询的数据源，需要特别小心审查，什么数据可以被查询，可以对外服务，否则可能引来数据合规风险。

匿踪查询根据业务的不同，分为单条查询和批量查询，其中单条查询的风险异常高，因为可能直接涉及到个体信息的暴露。假设数据源方提供黑名单信息的查询，查询方提交某个查询用户id，通过黑名单匿踪查询服务，获取到该个体用户id是否击中黑名单。更进一步，如果提供的是用户的原始数据信息，比如医疗体系中的查询，某个用户是否存在某种症状。这样的业务都会直接暴露个体隐私信息，与国家针对个体数据保护初衷相悖。因此数据源方提供的查询服务，一定要尽可能审查和评估。匿踪查询不解决原始数据暴露的问题。

那么有没有什么方法可以规避？答案是肯定的。第一种方案，就是提供查询的数据是不涉及个体隐私，或者经过个体授权。第二种方案，则采用群体信息来解决，引入批量匿踪查询，同样还是黑名单查询，假设查询方提交了一批用户id，数据源方不直接返回单条处理的密文数据，而是需要进行聚合计算。比如计算出一个密文状态下的比例信息，即当前查询批中有多少比例的黑名单用户。这样查询方拿到密文结果后解密，只能得到批群体信息的某种特征，而不是具体到个体信息。还有就是采用匿踪联盟的方案，最终查询方仅拿到多方聚合之后的结果，也可以规避某一个单方数据源信息的直接泄露。这里仅讨论有限的规避方案，还有更多的一些其他技术手段。

另外，关于同一数据源的访问次数限制问题，如果是无限次，是否存在被分析出某种分布，或者原始信息被拖库的风险，是否需要针对特定查询方对于特定数据源的查询频率限制？是否需要定期对数据源做一定的变换处理，以减少某种隐患？还有对于匿踪查询结算定价的策略设置，是否也需要起到一定的查询频率的限制作用？开放性问题，欢迎探讨。

3. 关于单数据源多种隐私计算服务的原始数据暴露问题讨论

隐私计算中，比如联邦学习、多方安全计算、安全求交等安全性问题，往往是针对独立的算法本身去探讨，这方面的研究很多，但是如果多种不同的技术都在单一数据源进行提供，这也是业内的现状，隐语、蓝象、洞见、富数都是综合性的技术厂商，都可以提供各种不同的技术，因此机构引入相应的厂商引擎后，往往就具备了多种不同隐私计算服务的能力。单数据源同时提供多种不同的隐私计算服务，假如使用不当，会存在原始信息泄露的隐患。

最明显的，就是联邦学习中，引入安全求交算法。普通的安全求交，计算方之间是会共享交集结果，这种是明显的敏感数据泄露问题。这方面的安全保护进展，可以看富数、微众、蓝象等相继推出的全匿踪联邦学习技术。

另外，联邦学习算法，往往对于标签信息的保护是最关键的。假设A、B两方进行联合风控建模，A方持有特征，B方持有标签为用户是否为逾期黑名单人员，是典型的分类任务。假如B方节点还具有黑名单匿踪查询服务，那么A方完全可以通过与B方进行匿踪查询得到黑名单是否击中的个体样本标签信息，即使是少量的标签，也可能足够A方在自己本地训练模型，一方面B方泄露了个体标签信息，另一方面A方绕开了必须与B方进行联邦学习的限制，对于B方来说损失惨重。所以对于B方，需要非常小心，从全局上考虑各种隐私计算对外的服务之间，是否存在数据泄露的风险和挑战。进一步，A方还可以利用与B方在联邦学习中的安全求交，来缩小匿踪查询的量级，对于B方来说，雪上加霜，火上浇油。

其他如安全多方计算，虽然其本身是属于可证安全的密码学原语，但是在实际业务中同样可能存在数据泄露风险。比如仅有两个数据方进行多方安全加法的计算，且其中一方为结果获取方，那么结果获取方完全可以反推另一方的原始数据，这不是MPC本身能解决的问题，而是一种业务本身的问题。因此一般实际场景中，两方之间不允许做非常基础的简单的计算任务，需要设置比如聚合、非线性、多计算符操作等其他复杂的计算任务。还有的解决方案是结合差分隐私，反馈的数据中包含一定的噪声，但又不影响与原始数据的总体分布一致性。

同样的，可信执行环境，也同样存在一定的安全风险，比如采用侧信道攻击。如果使用的是国外的硬件设备，还可能存在后门风险。