目录
摘要
基于高性能计算发展现状,提出了国家超算中心与隐私计算相结合的技术路线。通过对隐私计算进行分析,讨论了隐私计算与超算相结合的优势和不足。在此基础上,对高性能计算技术与隐私计算技术结合后的应用场景进行了展望。
关键词: 隐私计算; 高性能计算; 超算
0 引言
隐私计算(Privacy-Preserving Computation)是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。隐私计算并不能简单归属于某一个学科领域,而是一套融合了密码学、安全硬件、数据科学、人工智能、计算机工程等众多领域的跨学科技术体系,包含了多方安全计算(Secure Multi-Party Computation)、联邦学习(Federated Learning)、可信执行环境(Trusted Execution Environment)和同态加密(Homomorphic Encryption)等不同的代表性技术方案。一方面,隐私计算可以增强数据流通过程中对个人标识、用户隐私和数据安全的保护;另一方面,隐私计算也为数据的融合应用和价值释放提供了新思路。
近年来,超算行业的快速发展带来了强大的算力与数据流通、运算需求,给高性能计算行业带来了新的挑战与机遇。在隐私计算的过程中,参与方可能会承担生成和发放公钥、私钥、加解密结果等任务。但某些参与方可能会违约获取额外信息,暴露其他参与方的数据隐私;部分参与方可能会恶意合谋获取其他参与方的数据等。隐私计算普遍借助了密码学技术来实现多方协同计算,运算效率是影响其能否被广泛应用的一个重要因素。例如,隐私计算联合建模的耗时是传统集中式机器学习的数十倍甚至数百倍以上,联合统计的耗时也是传统集中式明文计算的数百倍以上。因此,隐私计算平台在实际落地应用中需要关注性能的优化,来提升可用性。
1 基于超算的多方安全计算
1.1 多方安全计算背景介绍
数据要产生价值就需要进行流通,多方安全计算在保护数据安全和隐私的前提下,为数据共享和价值实现提出了解决方案,在产业互联网、人工智能、金融科技、医疗数据共享等领域开始发挥重要作用。
在数学定义上,多方安全计算是指在没有可信第三方的情况下,所有参与方以一种安全的方式计算一个给定的函数y1,y2,…,ym=F(x1,x2,…,xm),其中xi,yi分别是第i方的秘密输入和计算结束后获得的结果。计算过程至少要求具有数据独立性(参与方输入数据相互独立)、结果正确性(参与方获得的结果正确)以及信息隐私性(参与方不能获取结果之外的任何其他信息)。在安全性方面,根据敌手能力,多方安全计算的安全模型主要包括半诚实敌手模型和恶意敌手模型。在技术实现上,多方安全计算主要包括混淆电路技术、秘密分享技术、不经意传输技术以及同态加密技术。
1.2 基于超算环境的多方安全计算分析
多方安全计算虽然为隐私保护场景下的数据共享和使用提供了安全的解决方案,但在具体实现时有着极高的通信和计算代价,这也是多方安全计算从理论研究到商业案例落地经历了如此长时间的主要原因。在超算环境下,超算中心的计算节点本身提供了高性能的计算能力,而计算节点之间采用具有超高带宽的无限带宽(Infiniband)