“隐语”可信隐私计算开源框架

weixin_51628424

已于 2024-12-01 21:49:19 修改

阅读量1.9k

点赞数 18

文章标签：开源可信计算技术密码学

于 2024-12-01 21:48:26 首次发布

本文链接：https://blog.csdn.net/weixin_51628424/article/details/144175654

版权

蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架“隐语”，采用 Apache-2.0 协议，代码托管至 GitHub、Gitee 两大平台。“隐语”通过良好可扩展的架构设计，用一套通用框架统一支持了包括 MPC、TEE、FL、HE、DP 在内的多种主流隐私计算技术，可以对多种技术进行灵活组合，针对不同应用场景提供不同的解决方案。

1产品层

1.1“隐语”产品

1.2定位

1）通过可视化产品，降低终端用户的体验和演示成本。

2）通过模块化 API 降低技术集成商的研发成本。

1.3人群画像

隐私保护计算集成商、隐私保护计算需求方、产品人员、开发人员、研究人员

2算法层

2.1PSI（隐私集合交集）

（1）半诚实模型：参与者会遵守协议，但可能尝试从接收到的信息中推断额外信息。

两方协议：涉及两个参与方。例如，ecdh、kkrt16、bc22 (pcg-psi) 等特定协议或算法用于两方数据交集计算；ec-oprf PSI（Unbalanced PSI）适用于不平衡数据集。
多方协议：涉及多个参与方。如 ecdh-3-party 可针对三个参与方，且能扩展至更多方。

（2）恶意模型：参与者可能破坏协议或获取额外信息。如 mini-PSI 适用于小规模数据集。

2.2PIR（私有信息检索）

Sealed PIR：用户检索数据时不暴露查询内容给服务器。
Label PIR：利用标签增强检索过程隐私性。
Simple PIR：提供更简单或高效的私有检索方法。

2.3Data Analysis - SCQL（安全协同查询语言）

定位

简化安全计算协议复杂性，让用户无需深入了解底层安全机制。
提供基于 SQL 的界面，方便数据分析师和开发者操作。
支持多方数据在加密状态下进行分析，保护数据隐私。

人群画像：

数据分析集成商。数据分析产品人员。数据分析需求人员。数据分析研发人员。

核心特性

采用半诚实安全模型，确保数据分析过程中数据安全。
支持多方参与（N>=2）的数据计算。
提供 MySQL 兼容的 SQL 方言用户界面，易上手。支持常用 SQL 语法和算子，满足大部分场景需求。
具备可实用的性能。
提供列级别的数据使用授权控制（CCL），确保数据访问安全。
支持多种密态协议（SEMI2K/CHEETAH/ABY3）。
内置支持多种数据源接入（MySQL、Postgres、CSV 等）。

2.4联邦学习

在原始数据不出域的前提下，通过交换中间数据完成机器学习建模。包含水平联邦和垂直联邦（主要是拆分学习，Split Learning）。”

人物群像：

深度学习需求方、深度学习产品人员、安全 AI 研究人员

3计算层

3.1RayFed（混合编译调度）

定位：在 Ray 基础之上构建的专注于跨机构的分布式计算调度框架，面向跨机构场景，提供单机构内计算任务独立调度和跨机构计算任务协作的能力。
人物群像：隐语工程开发人员、隐语算法开发人员、机器学习研发人员、密码协议研发人员、编译器研发人员。

3.2SPU（Secure Process Unit）

定位：桥接上层算法和底层安全协议，保持原生 AI 框架体验的同时为用户提供透明的、高性能的、基于安全协议的密态计算能力。
人物群像：机器学习研发人员、密码协议研发人员、编译器研发人员。
核心特性：
- 原生对接主流 AI 前端。
- 支持丰富的机器学习算法。
- 带隐私保护语义的中间表示语言。
- 基于 MLIR 的加密计算编译优化。
- 高性能 MPC 协议虚拟机。
- 多种数据并行，指令并行优化。
- 丰富的 MPC 协议，适配各种场景。
- 支持协议扩展，支持异构设备接入。

3.3HEU（低门槛，高性能同态加密库）

定位：低门槛，高性能的同态加密库，支持多类型、可扩展的算法协议和硬件加速生态。
人物群像：同态加密用户、同态算法研究人员、同态硬件研发人员。
同态加密分类：
- PHE（部分同态加密）：支持密态加法或乘法中的一种是有限次运算。
- LHE（有限同态加密）：支持有限次数的密态加法和乘法运算。
- FHE（全同态加密）：支持无限次数的密态加法和乘法运算。
核心特性：
- 支持多种 PHE 算法。
- 性能业界领先。
- 支持多种接口，包括 Numpy-like API、C++、Python。

3.4TEEU（可信执行环境）

定位：支持多种可信执行环境的、具备数据使用跨域管控能力的密态计算枢纽，可执行数据分析、机器学习、MPC/FL 加速等功能。
人群画像：TEE 软件开发人员、TEE 硬件制造厂商、数据合规研究人员。
跨域管控：
- 数据确权：确保数据的所有权和控制权明确。
- 使用授权：对数据的使用进行授权管理。
- 使用鉴权：对数据的使用进行身份验证和授权检查。
- 结果授权：对数据处理的结果进行授权管理。
可信应用：
- 预处理。
- 经典机器学习。
- 深度学习。
- 大模型。
多硬件：SGX、HyperEnclave、海光 CSV、Intel TDX。

3.5YACL（隐语自己的密码库）

定位：多种隐私计算技术路线共同需要的密码库，具备安全实现保证、高性能等特点。
人物群像：安全 / 密码研究人员。
上层应用密码库缺点：
- 安全：非标准化实现。
- 性能：性能问题。
- 易用性：缺少长期维护。
工业界密码库缺点：
- 功能：保守的新协议引入。
- 易用性：缺少良好的密码工具抽象。
为什么要用 YACL：
- 性能：提供高性能核心原语和详细的 benchmarking。
- 安全性：构建安全逻辑 “链”。
- 易用性：对密码协议开发者提供良好的接口抽象。