Faster Key-Switch via Decomposition

weixin_44885334

已于 2024-04-27 09:29:29 修改

阅读量590

点赞数 23

分类专栏： # 全同态加密文章标签：计算机数学网络安全密码学通信 FHE

于 2024-04-26 17:37:44 首次发布

本文链接：https://blog.csdn.net/weixin_44885334/article/details/138225387

版权

全同态加密专栏收录该内容

55 篇文章 45 订阅

订阅专栏

参考文献：

[BV11] Brakerski Z, Vaikuntanathan V. Fully homomorphic encryption from ring-LWE and security for key dependent messages[C]//Annual cryptology conference. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011: 505-524.
[BEHZ16] Bajard J C, Eynard J, Hasan M A, et al. A full RNS variant of FV like somewhat homomorphic encryption schemes[C]//International Conference on Selected Areas in Cryptography. Cham: Springer International Publishing, 2016: 423-442.
[HPS19] Halevi S, Polyakov Y, Shoup V. An improved RNS variant of the BFV homomorphic encryption scheme[C]//Topics in Cryptology–CT-RSA 2019: The Cryptographers’ Track at the RSA Conference 2019, San Francisco, CA, USA, March 4–8, 2019, Proceedings. Springer International Publishing, 2019: 83-105.
[HK20] Han K, Ki D. Better bootstrapping for approximate homomorphic encryption[C]//Cryptographers’ Track at the RSA Conference. Cham: Springer International Publishing, 2020: 364-390.
[KLSS23] Kim, M., Lee, D., Seo, J., Song, Y. (2023). Accelerating HE Operations from Key Decomposition Technique. In: Handschuh, H., Lysyanskaya, A. (eds) Advances in Cryptology – CRYPTO 2023. CRYPTO 2023. Lecture Notes in Computer Science, vol 14084. Springer, Cham.
Full-RNS BGV/BFV
Full-RNS CKKS

文章目录

Gadget Decomposition and External Product
A New External Product Method
Complexity Comparison

[KLSS23] 改进了 Full-RNS BGV/BFV/CKKS 中的 Key-Switch 过程，通过额外的数字分解，将线性同态运算中数据的规模大幅降低，从而不必对 RNS 表示中的每一个分量都执行 NTT/INTT，从而减少了 KS 的计算复杂性。

Gadget Decomposition and External Product

在各种 FHE 中，gadget toolkit 被广泛用于噪声的控制。

首先，我们定义 Gadget 分解：

在这里插入图片描述

这里的向量 $g$ 一般有两种选择方式，

[BV11] 提出的数字分解：选取 base $B$ ，定义 $(1,B,B^2,\cdots,B^{l-1})$ ，其中 $l = \log_B Q$
[BEHZ16] 提出的 RNS 分解：选取 primes $Q=\prod_{i=0}^{l-1} q_i$ ，定义 $(\hat q_0 q_0^*, \hat q_1 q_1^*, \cdots, \hat q_{l-1} q_{l-1}^*)$ ，其中 $\hat q_i^* = Q/q_i$ 以及 $q_i^* = [\hat q_i^{-1}]_{q_i}$

[KLSS23] 同时使用 [BV11] 的分解技术以及 [GHS12] 的提升技术，定义了所谓的 “外积” 运算（分解 + 内积），它是 KS 过程的基础运算。注意到 $R_{\tilde Q}$ 是一个 $R$ -module，因此内积 $\langle h(a), \vec u\rangle$ 是良定义的。

在这里插入图片描述

下面我们只考虑外积的快速实现，不再区分是使用了 BGV、BFV、CKKS 加密方案。

A New External Product Method

[KLSS23] 的设计思路为：

外积运算本身使用了某个 Gadget 向量 $g=(g_0,g_1,\cdots,g_{d-1}) \in R_{Q}^d$ 及其对应的 Gadget 分解函数 $R_{Q} \to R^d$
给定某元素 $\in R_Q$ ，把它分解为行矢 $\vec b=h(a)=(b_0,\cdots,b_{d-1}) \in R^d$
我们额外再使用一个 Gadget 向量 $\tilde g=(\tilde g_0,\tilde g_1,\cdots,\tilde g_{\tilde d-1}) \in R_{\tilde Q}^{\tilde d}$ 及其对应的 Gadget 分解函数 $\tilde h: R_{\tilde Q} \to R^{\tilde d}$
给定某列矢 $\vec u \in R_{\tilde Q}^d$ ，把它分解为矩阵 $V=h(\vec u)=(\vec v_0,\cdots,\vec v_{\tilde d-1}) \in R^{d \times \tilde d}$

现在，我们已知 $\vec b \cdot g \pmod{Q}$ 以及 $\vec u = V\cdot \tilde g \pmod{\tilde Q}$ ，因此外积运算可以写作：

在这里插入图片描述

注意这里的计算结果的模数不是 $Q$ 而是 $\tilde Q=PQ$ 。假设函数 $h$ 分解出的范数上界是 $B$ ，而函数 $\tilde h$ 分解出的范数上界是 $\tilde B$ ，那么系数 $\langle h(a), \tilde h(\vec u)_j\rangle$ 的范数上界是（最坏的，能否改成平均的？）：
$\| \langle \vec b, \vec v_j\rangle \|_\infty \le dN \cdot \|b\|_\infty \cdot \|\vec v_j\|_\infty \le dN \cdot B\tilde B$
因此行矢 $\vec b \in R^d$ 以及列矢 $\vec v_j \in R^d$ 可以嵌入到 $R_{B'}^d$ 中计算内积，只要满足 $dN\cdot B\tilde B$ 即可。选取合适的 $h,\tilde h$ ，使得 $\ll \tilde Q$ ，然后执行 $R_{B'}$ 上的 Double-CRT 运算，所需的 NTT/INTT 数量大幅减少。

因为这完全是算法上的改进，因此对噪声增长没有任何影响。

RNS-based Gadget Decomposition

最早由 [BEHZ16] 提出 RNS 分解，它是 RNS-friendly 的一种 Gadget 分解方法。他们直接使用 $Q=q_0\cdots q_{l-1}$ 对应的 RNS 表示 $[a]_Q = ([a]_{q_0}, \cdots, [a]_{q_{l-1}}) \in R^{l}$ 作为分解形式，但这导致 KSK 的规模扩张了 $l$ 倍（分别加密 $Ps^2 \cdot g_i$ 或者 $P\cdot\tau_t(s) \cdot g_i$ ），并且计算效率降低。

[HK20] 指出我们不必完全分解到各个素数，而是将它们分组为若干个数字。确切地说，

模数 $Q$ 的 RNS base 是 $\mathcal B = \{q_0,\cdots,q_{l-1}\}$ ，指标集 $I = [l]$
指标集分解为 $d$ 个子集的不交并 $\cup_j I_j$ ，对应的 RNS base 分别是 $\mathcal B_j = \{q_k \mid k \in I_k\}$ ，那么 $D_j = \prod_{k \in I_j} q_k$ 是互素的 digits，满足 $\prod_j D_j$ ，我们称 $I_j|$ 是 $D_j$ 的长度

我们定义 Gadget 分解函数 $R_Q \to R^d$ ，
$\mapsto \vec b := \big(b_j=[a]_{D_j}\big)_{j=0}^{d-1}$
简记 $\hat D_j = Q/D_j$ 以及 $D_j^* = [\hat D_j^{-1}]_{D_j}$ ，这个分解函数对应的 Gadget 向量是：
$\vec g := \big( g_j=\hat D_jD_j^* \big)_{j=0}^{d-1}$
容易验证 $g_j=1 \pmod{D_j}$ 以及 $g_j = 0 \pmod{D_{j'}}, \forall j' \neq j$ ，因此 $\vec g$ 构成了一组 CRT 基底，使得 $\langle h(a),\vec g\rangle$ 。我们令 $h$ 的范数上界为 $\frac{1}{2} \max_{0 \le j<d}\{D_j\}$

在 RNS 下计算上述的 Gadget 分解是平凡的：给定元素 $\in R_Q$ 的 RNS 表示 $[a]_Q = ([a]_{q_i})_{0 \le i < l} \in R_Q^l$ ，那么把这个向量简单分组为 $[a]_Q = ([a]_{D_j})_{0 \le j < d}$ 即可，其中的每一个 $[a]_{D_j} = ([a]_{q_k})_{k \in I_j} \in R^{|I_j|}$ 也都是 RNS 向量表示。

External Product over RNS

我们使用 [HK20] 的分解技术实现 External Product 中使用的两个 $h,\tilde h$ 分解函数，前者分解 $Q$ 成为 $D_i, 0\le i <d$ ，后者分解 $\tilde Q$ 成为 $\tilde D_j, 0 \le j<\tilde d$ 。当计算内积 $\langle \vec b, \vec v_j\rangle, 0\le j<\tilde d$ 的时候，其中 $\vec b = h(a) \in R^d$ 以及 $\vec v_j = \tilde h(\vec u)_j \in R^d$ ，其中的分量 $b_i = [a]_{D_i}, 0 \le i<d$ 以及 $v_{ji} = [\vec v_j]_{\tilde D_i}$ 都是短向量，我们将它们嵌入到 $R_{B'}^d$ 中模拟 $R^d$ 运算。

这需要用到 [BEHZ16] 提出的 Fast Base Conversion 技术。为了消除 overflow 的影响，可以采用 [HPS19] 的浮点数算法。我们以 $b_i=[a]_{D_i}=(a_k)_k \in R^{|I_i|}$ 为例，定义 $\hat q_k=D_i/q_k$ 以及 $q_k^*=[\hat q_k^{-1}]_{q_k}$ ，可以写出（根据 CRT 定理，并不真的去计算）：
$b_i = \sum_{k \in I_i} [a_k \cdot q_k^*]_{q_k} \cdot \hat q_k - D_iz_i \in R_{D_i}$
其中 $z_i$ 是使用浮点算术得到的，一般情况下 IEEE-754 double 就足够了，
$z_i = \left\lfloor \frac{\sum_{k \in I_i} [a_k \cdot q_k^*]_{q_k} \cdot \hat q_k}{D_i} \right\rceil = \left\lfloor \sum_{k \in I_i} \frac{ [a_k \cdot q_k^*]_{q_k} }{q_k} \right\rceil$
假设 $\prod q'$ ，那么就有（直接根据 $a_k=[a]_{q_k}$ 计算）：
$[b_i]_{q'} = \sum_{k \in I_i} [a_k \cdot q_k^*]_{q_k} \cdot [\hat q_k]_{q'} - z_i \cdot [D_i]_{q'} \in R_{q'}$
其中的 $[\hat q_k]_{q'}$ 以及 $D_i]_{q'}$ 都是预计算的。这样就实现了 $b_i=[a]_{D_i}$ 到 $b_i]_{B'}$ 的转换，对于 $v_{ji} = [\vec v_j]_{\tilde D_i}$ 同理，于是我们可以在 $R_{B'}^d$ 中计算两者的内积。

最终，再次使用 Fast Base Conversion 把内积结果 $r_j = \langle \vec b, \vec v_j\rangle \in R_{B'}$ （可以正确提升为 $R$ 再取模）转换到 $[r_j]_{\tilde D_j} \in R_{\tilde D_j}$ （注意不是 $D_i\mid Q$ 而是 $\tilde D_j \mid \tilde Q$ ）。此时有：
$\langle h(a),u\rangle = \sum_{i=0}^{d-1} b_i \cdot u_i = \sum_{j=0}^{\tilde d-1} [r_j]_{\tilde D_j} \cdot \tilde g_j \pmod{\tilde Q}$
由于 $\tilde g_j = 1 \pmod{\tilde D_j}$ 以及 $\tilde g_j = 0 \pmod{\tilde D_{j'}}, \forall j' \neq j$ ，因此简单地把这些 $[r_j]_{\tilde D_j}, 0\le j<\tilde d$ 级联起来，就得到了内积 $\langle b,u\rangle \pmod{\tilde Q}$ 的 RNS 表示。最后的模切换 $\tilde Q \to Q$ ，在 RNS 上也是容易的。

Previous Key-switching Method

[KLSS23] 测试发现，Full-RNS 中占主导开销的就是 NTT/INTT，

在同态乘法中，密钥切换的开销占比为 $93\%$
在自同构中，密钥切换的开销占比为 $95\%$
在密钥切换中，NTT/INTT 的开销占比为 $73\%$

假设 $q_0q_1 \cdots q_{l-1}$ 以及 $q_{l}q_{l+1}\cdots q_{\tilde l-1}$ 分别是 ciphertext modulus 和 special modulus，这里 $q_i$ 都是 word-size 素数。将模数 $Q$ 分解为 $d$ 个长度 $r$ 的数字 $D_j$ ，使用它所对应的 RNS 分解函数 $h$ 。

先计算 $\in R^d$ ，然后再把每个 $b_j=[a]_{D_j}$ 都扩展到模数 $\tilde Q$ 对应的 RNS 表示。KSK 以 Double-CRT 的形式给出，模数是 $\tilde Q$ 。
接着把这 $d$ 个长度 $\tilde l$ 的多项式 $[b_j]_{\tilde Q}$ 都转换到 NTT Form，再和 KSK 做内积（线性解密）。
把计算出的两个密文分量转换回 Coeff Form，执行模切换。

如图所示：

在这里插入图片描述

计算复杂度：

NTT/INTT 数量：内积之前需要 $d\tilde l$ 次 NTT，内积之后需要 $2\tilde l$ 次 INTT，共计为 $(d+2)\tilde l$
Hadamard product 数量：
- 当 $\neq 1$ 时，把各个 $a]_{D_j}$ 扩展到 $\tilde Q$ 需要 $dr(\tilde l-r) \le l^2$ 次 Hadamard product（请看 $b_i]_{q'}$ 计算公式），内积需要 $2d\tilde l$ 次 Hadamard product，共计为 $l^2+2d\tilde l$
- 当 $r = 1$ 时，把各个 $a]_{D_j}$ 扩展到 $\tilde Q$ 就不再需要 Hadamard product，共计为 $2d\tilde l$

New Key-switching Method

使用 [KLSS23] 提出的新外积算法，可以把 NTT/INTT 的开销降低 4-9 倍，使得密钥切换中的 NTT/INTT 开销占比降低到 $27\%$

除了分解 $Q$ 为 $D_i$ 对应的函数 $h$ ，再使用分解 $\tilde Q=PQ$ 为 $\tilde D_j, 0 \le j<\tilde d$ 对应的函数 $\tilde h$ ，假设 $\tilde D_j$ 的长度都是 $\tilde r$ 。选取合适的 $B^{'}$ ，它的长度为 $r^{'}$ 。

先计算 $\in R^d$ ，然后再把每个 $b_j=[a]_{D_j}$ 都扩展到模数 $B^{'}$ 对应的 RNS 表示。KSK 已经被关于 $\tilde h$ 分解，并以对应的 Double-CRT 的形式给出，模数是 $B^{'}$ 。
接着把这 $d$ 个长度 $r^{'}$ 的多项式 $b_j]_{B'}$ 都转换到 NTT form，再和 KSK 做内积（线性解密），两个密文分量都各对应 $\tilde d$ 个内积。
把计算出的系数都转换回 Coeff Form（模数 $B^{'}$ ），并各自转换到 $\tilde D_j$ 模数，最后执行模切换。

如图所示：

在这里插入图片描述

计算复杂度：

NTT/INTT 数量：内积之前需要 $d r^{'}$ 次 NTT，内积之后需要 $2\tilde dr'$ 次 INTT，共计为 $(d+2\tilde d)r'$
Hadamard product 数量：
- 当 $\neq 1$ 时，把各个 $a]_{D_j}$ 扩展到 $B^{'}$ 需要 $\le lr'$ 次 Hadamard product（请看 $b_i]_{q'}$ 计算公式），内积需要 $2d\tilde dr'$ 次 Hadamard product，最后从 $B^{'}$ 转换回 $\tilde Q$ 还需要 $2\tilde d\tilde rr'=2\tilde lr'$ 次 Hadamard product，共计为 $(l+2d\tilde d+2\tilde l)r'$
- 当 $r = 1$ 时，把各个 $a]_{D_j}$ 扩展到 $\tilde Q$ 就不再需要 Hadamard product，共计为 $(2d\tilde d+2\tilde l)r'$

Complexity Comparison

汇总一下，[KLSS23] 所需的 NTT/INTT 数量大幅减低，而 Hadamard product 数量也有所降低。如果假设 $r,\tilde r,r' \in O(1)$ 以及 $d,\tilde d \in O(l)$ ，此时 $\tilde l=\tilde r\tilde d=O(l)$ ，那么在渐进的意义下：

旧的 KS 需要 $O(l^2)$ 次 NTT/INTT，新的 KS 只需要 $O (l)$ 次 NTT/INTT
旧的和新的 KS 都需要 $O(l^2)$ 次 Hadamard product

问题是实际中真的设置 $\in O(1)$ 和 $d = O (l)$ 嘛？对于 Hybrid KS（噪声还被除以 $P$ ，不必分解的很细），通常是选取 $d = 2, 3$ 吧？那样的话，原始 KS 本身也是线性复杂度的 NTT/INTT，改进就没有这么明显了。

在这里插入图片描述

可以看出，随着 $r$ 的增大（也就是 $d$ 的减小），原始 KS 的表现越来越好，且 [KLSS23] 的改进幅度越来越小。此外 [KLSS23] 还声称新算法对于 $l, r$ 的依赖相对较弱。

在这里插入图片描述

在他们选取的参数下，NTT 的占比大幅下降了：

在这里插入图片描述

weixin_44885334

关注

23
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Faster Key-Switch via Decomposition

[KLSS23] 的设计思路为：* 外积运算**本身使用了某个 Gadget 向量** $g=(g_0,g_1,\cdots,g_{d-1}) \in R_{\tilde Q}^d$ 及其对应的 Gadget 分解函数 $h: R_{\tilde Q} \to R^d$* 给定某**元素** $a \in R_Q$，把它分解为**行矢** $\vec b=h(a)=(b_0,\cdots,b_{d-1}) \in R^d$* 我们**额外再使用一个 Gadget 向量** $\tilde g=(\t
复制链接

扫一扫