蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架“隐语”,采用 Apache-2.0 协议,代码托管至 GitHub、Gitee 两大平台。“隐语”通过良好可扩展的架构设计,用一套通用框架统一支持了包括 MPC、TEE、FL、HE、DP 在内的多种主流隐私计算技术,可以对多种技术进行灵活组合,针对不同应用场景提供不同的解决方案。
1产品层
1.1“隐语”产品
1.2定位
1)通过可视化产品,降低终端用户的体验和演示成本。
2)通过模块化 API 降低技术集成商的研发成本。
1.3人群画像
- 隐私保护计算集成商、隐私保护计算需求方、产品人员、开发人员、研究人员
2算法层
2.1PSI(隐私集合交集)
(1)半诚实模型:参与者会遵守协议,但可能尝试从接收到的信息中推断额外信息。
- 两方协议:涉及两个参与方。例如,ecdh、kkrt16、bc22 (pcg-psi) 等特定协议或算法用于两方数据交集计算;ec-oprf PSI(Unbalanced PSI)适用于不平衡数据集。
- 多方协议:涉及多个参与方。如 ecdh-3-party 可针对三个参与方,且能扩展至更多方。
(2)恶意模型:参与者可能破坏协议或获取额外信息。如 mini-PSI 适用于小规模数据集。
2.2PIR(私有信息检索)
- Sealed PIR:用户检索数据时不暴露查询内容给服务器。
- Label PIR:利用标签增强检索过程隐私性。
- Simple PIR:提供更简单或高效的私有检索方法。
2.3Data Analysis - SCQL(安全协同查询语言)
定位
- 简化安全计算协议复杂性,让用户无需深入了解底层安全机制。
- 提供基于 SQL 的界面,方便数据分析师和开发者操作。
- 支持多方数据在加密状态下进行分析,保护数据隐私。
人群画像:
- 数据分析集成商。数据分析产品人员。数据分析需求人员。数据分析研发人员。
核心特性
- 采用半诚实安全模型,确保数据分析过程中数据安全。
- 支持多方参与(N>=2)的数据计算。
- 提供 MySQL 兼容的 SQL 方言用户界面,易上手。支持常用 SQL 语法和算子,满足大部分场景需求。
- 具备可实用的性能。
- 提供列级别的数据使用授权控制(CCL),确保数据访问安全。
- 支持多种密态协议(SEMI2K/CHEETAH/ABY3)。
- 内置支持多种数据源接入(MySQL、Postgres、CSV 等)。
2.4联邦学习
- 在原始数据不出域的前提下,通过交换中间数据完成机器学习建模。包含水平联邦和垂直联邦(主要是拆分学习,Split Learning)。”
人物群像:
- 深度学习需求方、深度学习产品人员、安全 AI 研究人员
3计算层
3.1RayFed(混合编译调度)
- 定位:在 Ray 基础之上构建的专注于跨机构的分布式计算调度框架,面向跨机构场景,提供单机构内计算任务独立调度和跨机构计算任务协作的能力。
- 人物群像:隐语工程开发人员、隐语算法开发人员、机器学习研发人员、密码协议研发人员、编译器研发人员。
3.2SPU(Secure Process Unit)
- 定位:桥接上层算法和底层安全协议,保持原生 AI 框架体验的同时为用户提供透明的、高性能的、基于安全协议的密态计算能力。
- 人物群像:机器学习研发人员、密码协议研发人员、编译器研发人员。
- 核心特性:
- 原生对接主流 AI 前端。
- 支持丰富的机器学习算法。
- 带隐私保护语义的中间表示语言。
- 基于 MLIR 的加密计算编译优化。
- 高性能 MPC 协议虚拟机。
- 多种数据并行,指令并行优化。
- 丰富的 MPC 协议,适配各种场景。
- 支持协议扩展,支持异构设备接入。
3.3HEU(低门槛,高性能同态加密库)
- 定位:低门槛,高性能的同态加密库,支持多类型、可扩展的算法协议和硬件加速生态。
- 人物群像:同态加密用户、同态算法研究人员、同态硬件研发人员。
- 同态加密分类:
- PHE(部分同态加密):支持密态加法或乘法中的一种是有限次运算。
- LHE(有限同态加密):支持有限次数的密态加法和乘法运算。
- FHE(全同态加密):支持无限次数的密态加法和乘法运算。
- 核心特性:
- 支持多种 PHE 算法。
- 性能业界领先。
- 支持多种接口,包括 Numpy-like API、C++、Python。
3.4TEEU(可信执行环境)
- 定位:支持多种可信执行环境的、具备数据使用跨域管控能力的密态计算枢纽,可执行数据分析、机器学习、MPC/FL 加速等功能。
- 人群画像:TEE 软件开发人员、TEE 硬件制造厂商、数据合规研究人员。
- 跨域管控:
- 数据确权:确保数据的所有权和控制权明确。
- 使用授权:对数据的使用进行授权管理。
- 使用鉴权:对数据的使用进行身份验证和授权检查。
- 结果授权:对数据处理的结果进行授权管理。
- 可信应用:
- 预处理。
- 经典机器学习。
- 深度学习。
- 大模型。
- 多硬件:SGX、HyperEnclave、海光 CSV、Intel TDX。
3.5YACL(隐语自己的密码库)
- 定位:多种隐私计算技术路线共同需要的密码库,具备安全实现保证、高性能等特点。
- 人物群像:安全 / 密码研究人员。
- 上层应用密码库缺点:
- 安全:非标准化实现。
- 性能:性能问题。
- 易用性:缺少长期维护。
- 工业界密码库缺点:
- 功能:保守的新协议引入。
- 易用性:缺少良好的密码工具抽象。
- 为什么要用 YACL:
- 性能:提供高性能核心原语和详细的 benchmarking。
- 安全性:构建安全逻辑 “链”。
- 易用性:对密码协议开发者提供良好的接口抽象。
4资源层
KUSCIA
定位:“屏蔽不同机构间基础设施的差异,为跨机构协作提供丰富且可靠的资源管理和任务调度能力。”
人物群像:“隐私保护计算集成商” 和 “运维开发人员”。