我的隐私计算学习——概念及应用（1）

最新推荐文章于 2024-06-28 20:48:53 发布

Atara8088

最新推荐文章于 2024-06-28 20:48:53 发布

阅读量1k

点赞数 24

文章标签：学习人工智能安全密码学

本文链接：https://blog.csdn.net/weixin_47695607/article/details/134596013

版权

一、概念及应用

（一）隐私计算的分支

隐私计算技术分为数据存储、数据传输、数据计算过程、数据计算结果4个方面：

隐私计算需要注意“输入隐私”和“输出隐私”。输入隐私是指参与方不能在非授权状态下获取或者解析出原始输入数据以及中间计算结果，输出隐私是指参与方不能从输出结果反推出敏感信息。总之，隐私计算的重点是安全，安全三要素包含完整性（Integrity）、可用性（Availability）和机密性（Confidentiality）。

（二）发展脉络

隐私计算的四个发展阶段如下所示：

隐私计算主要有两类主流解决方案：一类是采用密码学和分布式系统；另一类是采用基于硬件的可信执行环境（Trusted Execution Environment，TEE）。

《腾讯隐私计算白皮书2021》将当前隐私计算的体系架构总结为下图。一般而言，越是上层，其面临的情况可能越复杂，往往会综合运用下层中的多项技术进行安全防护。虽然根据多方安全计算的定义，联邦学习（也就是图中的“联合学习”）也应该属于广义的“多方安全计算”范畴，但可能是由于当前机器学习比较火热，业界普遍将联邦学习单独列出。

可以看到，目前隐私计算领域几大应用场景是金融、医疗、政务、广告传媒。

（三）三大主流技术路线

虽然当前隐私计算正处于快速发展阶段,各主流技术路线的创新与突破层出不穷﹐但是在短时间内仍然难以从本质上解决单一技术的瓶颈限制，各技术路线都存在着不同的局限性：

为解决单一技术的局限性,多技术融合为解决隐私计算的各类技术瓶颈提供了有效手段。在一些场景下，技术融合往往能够产生“1+1>2”的效果。例如多方安全计算与联邦学习融合，借助多方安全计算完成各参与方本地模型的汇聚，增强对中间数据的安全保护能力，实现更加安全的联邦学习聚合算法，如通过秘密分享或全同态加密等方式在密态的环境下完成模型训练。

在产业实践方面，隐私计算的技术融合应用已经成为一大趋势。根据产品评测实践及市场调研，截至2022年12月，已通过中国信通院“可信隐私计算”产品评测的100余家单位中，38%支持多种不同的隐私计算技术，其中以多方安全计算加联邦学习的占比最高，达到了33%。

除各主要技术路线之间的融合，零知识证明、差分隐私、区块链等技术也常被应用或辅助于隐私计算。零知识证明能够补充计算过程中对各方计算结果正确性的验证，确保各参与方在计算过程中是诚实的;差分隐私能够作为一种增强数据保护程度的技术手段，与其他隐私计算技术融合应用；区块链一方面能够实现计算全流程可记录、可验证、可追溯、可审计，另一方面可以加强对参与方身份的认证，实现隐私计算任务定向授权验证。

从技术层面来看,实现多技术的融合将成为未来技术的一大趋势。

隐私计算性能现状分析

目前，隐私计算算法在安全求交和联合建模等场景中的性能有待提升。隐私计算各类算法在不同条件和场景下耗时差异大，所以考量性能应使用固定的硬件资源和数据集﹐同时算法满足安全性和结果准确性的要求。其中,安全性指的是产品应保证数据在传输中的安全性、算法安全和密码的安全强度达标等，另外对于可信执行环境产品，应满足内部的计算环境安全性。准确性是指隐私计算产品所使用的某些特定算法可能会导致加密计算结果与明文存在一定程度的偏差，在实际应用中，小范围内的偏差是可接受的。

根据中国信通院发布的隐私计算性能标准和测试统计结果，基础运算和联合统计通常作为其他复杂运算的算子，计算性能普遍较高。在隐匿查询场景中，典型的实现方案有XPIR，KeywordPIR等，当前单次的百万级不可区分度的隐匿查询最快可达到秒级，隐匿查询在某些场景已达到可用程度。对于安全求交，典型的方案包括基于RSA盲签名的方案，基于不经意传输扩展的方案等，不同方案由于计算量和通信量不同，所以有着不同的适用场景。例如，两数据方均持有一亿数据量的平衡场景的耗时在半小时左右，非平衡场景较平衡场景耗时少；三数据方场景的耗时有一定增加，平均耗时接近小时级。联合建模场景中，对于两方各持有几十万行乘以几千维度量级的数据集进行逻辑回归建模，使用基于秘密分享的方案和基于同态加密的联邦学习方案均接近一小时完成，但后者相比较快，而对于树模型建模，由于涉及运算更复杂，用典型的 SecureBoost 方案建模平均耗时在小时级以上，如果使用多方安全计算的方式则耗时更长，并且随着数据规模逐渐增大到百万级，建模的性能会更差。

隐私计算性能优化方法

性能提升可以从算法层面优化与硬件层面加速相结合实现。在算法层面，一是可以进行并行化处理，如数据并行处理、算法并行操作或工作流水线并行等，充分利用现有资源提升效率；二是针对于联邦学习模型，可通过模型压缩控制每轮信息传输大小和通过增加本地计算降低交互轮数的方式提高通信效率；三是在充分考虑场景的安全性和准确性的前提下，可通过使用差分隐私手段牺牲准确性来换取可能的性能提升。在硬件层面，当前也出现了专用的加速卡和隐私计算一体机产品,原理是将同态加密等复杂运算转移至 GPU、FPGA 和 ASIC 等硬件设备上执行，以硬件加速方式缩短计算耗时。

10月份新开了一个GitHub账号，里面已放了一些密码学，隐私计算电子书资料了，之后会整理一些我做过的、或是我觉得不错的论文复现、代码项目也放上去，欢迎一起交流！Ataraxia-github (Ataraxia-github) / Repositories · GitHub