BGV 和 BFV 的统一框架

山登绝顶我为峰 3(^v^)3

已于 2023-12-12 09:23:06 修改

阅读量916

点赞数 6

分类专栏： # 全同态加密文章标签：数据库信息安全数学人工智能密码学区块链

于 2023-12-07 14:34:20 首次发布

本文链接：https://blog.csdn.net/weixin_44885334/article/details/134854365

版权

全同态加密专栏收录该内容

59 篇文章 53 订阅

订阅专栏

参考文献：

[GHS12] Gentry C, Halevi S, Smart N P. Homomorphic evaluation of the AES circuit[C]//Annual Cryptology Conference. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012: 850-867.
[AP13] Alperin-Sheriff J, Peikert C. Practical bootstrapping in quasilinear time[C]//Annual Cryptology Conference. Berlin, Heidelberg: Springer Berlin Heidelberg, 2013: 1-20.
[CS15] Costache A, Smart N P. Which ring based somewhat homomorphic encryption scheme is best?[C]//Topics in Cryptology-CT-RSA 2016: The Cryptographers’ Track at the RSA Conference 2016, San Francisco, CA, USA, February 29-March 4, 2016, Proceedings. Springer International Publishing, 2016: 325-340.
[CP16] Crockett E, Peikert C. Λολ: Functional Lattice Cryptography[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. 2016: 993-1005.
[BEHZ16] Bajard J C, Eynard J, Hasan M A, et al. A full RNS variant of FV like somewhat homomorphic encryption schemes[C]//International Conference on Selected Areas in Cryptography. Cham: Springer International Publishing, 2016: 423-442.
[HPS19] Halevi S, Polyakov Y, Shoup V. An improved RNS variant of the BFV homomorphic encryption scheme[C]//Topics in Cryptology–CT-RSA 2019: The Cryptographers’ Track at the RSA Conference 2019, San Francisco, CA, USA, March 4–8, 2019, Proceedings. Springer International Publishing, 2019: 83-105.
[KPZ21] Kim A, Polyakov Y, Zucca V. Revisiting homomorphic encryption schemes for finite fields[C]//Advances in Cryptology–ASIACRYPT 2021: 27th International Conference on the Theory and Application of Cryptology and Information Security, Singapore, December 6–10, 2021, Proceedings, Part III 27. Springer International Publishing, 2021: 608-639.

文章目录

Original Scheme
Modified BFV
BFV Optimizations
- Lazy Scaling
- Digit Decomposition Technique for RNS
BGV Optimizations
Comparison of BGV and BFV

[CS15] 使用了启发式的平均噪声估计，研究了四种同态方案：BGV、BFV（scale-invariant version of BGV）、NTRU、YASHE（scale-invariant version of NTRU），并研究了两种 key-Switching 方案：BV 和 GHS。他们以相似的安全强度（ $80$ 比特的安全性），给出了密文模数的选取建议，比较了密文规模以及运算效率。发现：对于 $t = 2$ 明文模数 YASHE 的效率略高一些，对于较大的明文模数 BGV 的效率要高的多。另外，对于大明文模数 BGV 的噪声控制更好。

[KPZ21] 比较了 BGV 和 BFV，并对两者进行一定程度的修改，尽可能缩小两者的差距。与 [CS15] 的结论不同，在修改了 BFV 的加密方式后，无论什么规模的明文模数，BFV 的噪声控制总是表现的比 BGV 更好。

Original Scheme

分圆整数环 $\mathcal R=\mathbb Z[X]/(X^N+1)$ ，中心化余数 $[a]_Q \in [-Q/2,Q/2)$ ，经典余数 $r_Q(a) \in [0,Q)$

对于分圆环 $\delta_\mathcal R=N$ ，但是实际只有指数小的概率可以达到这个界，一般可以使用 $\delta_\mathcal R=2\sqrt N$ 作为更紧的启发式噪声上界。一般地 $\le 2^{14}$ ，从而计算出 $\delta_\mathcal R \le 256$ 作为经验值。

秘密分布 $\chi_s$ 是均匀三元分布，噪声分布 $\chi_e$ 是标准差 $\sigma=3.19$ 的截断高斯分布，上界 $B_{err}=6\sigma$ 和 $B_{key}=1$

BGV

私钥 $\gets \chi_s$ 是短的，RLWE 公钥为
$pk=([as+te]_Q, [-a]Q) \in \mathcal R_Q^2$
要求明密文模数互素， $\gcd(t,Q)=1$ ，那么 $p k$ 可以转化为 RLWE 样本 $t^{-1}as+e]_Q, [-t^{-1}a]_Q)$

原始 BGV 采取 LSD 编码，加密算法为
$Enc([m]_t) = \left( u \cdot pk_0+te_0+[m]_t, u \cdot pk_1+te_1\right) \in \mathcal R_Q^2$
其中 $\gets \chi_s, e_0,e_1\gets \chi_e$ 都是随机的短元素，新鲜密文的噪声是 $v_{fresh}=ue+e_1s+e_0$

假设 $c_0,c_1)$ 的噪声是 $v$ ，那么：
$c_0+c_1s= [m]_t + tv \pmod Q$
纠错步骤就是： $c_0+c_1s]_Q]_t$ ，为了解密正确， $m]_t+tv]_Q$ （注意不只是 $tv]_Q$ ）不能发生回绕（wrap-around），其中 $[m]_t \in [-t/2,t/2)$
$\|v\|_\infty < \dfrac{Q}{2t}-\dfrac{1}{2}$
同态加法：简记 $r_m=([m]_t + [m']_t-[m+ m']_t)/t$ ，满足 $\|r_m\|_\infty \le 1$
$\begin{aligned} (c_0+c_1s)+(c_0'+c_1's) &= ([m]_t + tv)+([m']_t + tv')\\ &= [m+m']_t + t\cdot r_m + t(v+v')\\ \|v_{add}\|_\infty &= \|v+v'+r_m\|_\infty\\ &\le \|v\|_\infty + \|v'\|_\infty + 1 \end{aligned}$
同态乘法（不执行重现性化）：简记 $r_m=([m]_t \cdot [m']_t-[m\cdot m']_t)/t$ ，满足 $\|r_m\|_\infty \le \delta_\mathcal Rt/2$ （环乘法导致范数增长 $\delta_\mathcal R$ 倍）
$\begin{aligned} (c_0+c_1s)\cdot(c_0'+c_1's) &= ([m]_t + tv)\cdot([m']_t + tv')\\ &= [m\cdot m']_t + t \cdot r_m + t([m]_t\cdot v'+[m']_t\cdot v+tvv')\\ \|v_{mult}\|_\infty &= \|[m]_t\cdot v'+[m']_t\cdot v+tvv'+r_m\|_\infty\\ &\le \frac{\delta_\mathcal R t}{2} \cdot(\|v'\|_\infty+\|v\|_\infty + 2\|v'\|_\infty \cdot \|v\|_\infty + 1) \end{aligned}$
模切换（任意明文模数）：输入 $ct=(c_0,c_1)$ ，需要满足条件 $\|[c_0+c_1s]_{Q_{k}}\|_\infty < Q_k/2-q_kt(1+\delta_\mathcal RB_{key})/2$ ，
$\begin{aligned} \delta &= (t[-c_0t^{-1}]_{q_k}, t[-c_1t^{-1}]_{q_k})\\ ct' &= \left[\dfrac{(c_0+\delta_0, c_1+\delta_1)}{q_k}\right]_{Q_{k-1}} \end{aligned}$
易知 $\delta \equiv 0 \pmod t$ 以及 $\delta \equiv -ct \pmod{q_k}$ ，计算 $c t^{'}$ 中的除法就是整除，可被替代为乘以逆元，
$\begin{aligned} (c_0'+c_1's) &= \left[q_k^{-1}((c_0+\delta_0)+ (c_1+\delta_1)s)\right]_{Q_{k-1}}\\ &= [q_k^{-1}m]_t + q_k^{-1}(tv+\delta_0+\delta_1s+r_m)\\ \|v'\|_\infty &= \|v\|_\infty/q_k+\|v_{ms}\|_\infty \end{aligned}$
其中 $\|v_{ms}\|_\infty \le (1+\delta_\mathcal RB_{key})/2$ 是额外引入的小噪声， $c t^{'}$ 加密的是扭曲的消息 $q_k^{-1}m]_t$

[GHS12] 变体：使用 Double-CRT 格式存储密文

每次模切换，消息 $m]_t$ 都被缩放为 $q_k^{-1}m]_t$
- [BGV12] 选取 $q_i \equiv 1 \pmod t$ ，但是这限制了 RNS 素数的选取
- [GHS12] 追踪这个缩放因子（模切换改变它，简单取模不改变它）
- 或者初始加密 $Q_Lm]_t$ ，那么模切换之后自然地成为 $Q_km]_t$
加密之后， $v_{frash}$ 的规模比 $v_{ms}$ 的规模大得多，因此 [GHS12] 建议立即执行一次模切换，这可以降低各个 $Q_{k+1}/Q_k$ 的比值，从而获得更小的 $Q_L$
并非乘法之后模切换，而是在乘法之前模切换，这对其他运算产生的噪声也做了约简控制

BFV

私钥 $\gets \chi_s$ 是短的，RLWE 公钥为
$pk=([as+e]_Q, [-a]Q) \in \mathcal R_Q^2$
在原始 BFV 方案采取 MSD 编码，使用缩放因子 $\Delta=\lfloor Q/t\rfloor$ ，加密算法为
$Enc([m]_t) = \left( u \cdot pk_0+e_0+\Delta[m]_t, u \cdot pk_1+e_1\right) \in \mathcal R_Q^2$
其中 $\gets \chi_s, e_0,e_1\gets \chi_e$ 都是随机的短元素，新鲜密文的噪声是 $v_{fresh}=ue+e_1s+e_0$ ，这和 BGV 是一样的。

我们定义 $r_t(Q) = Q-t\Delta \in [0,t)$ ，假设 $c_0,c_1)$ 的噪声是 $v$ ，那么
$c_0+c_1s= \Delta[m]_t + v \pmod Q$
纠错时，计算
$\begin{aligned} \left\lfloor \dfrac{t}{Q}[c_0+c_1s]_Q \right\rceil &= \left\lfloor \dfrac{t}{Q}(\Delta[m]_t + v) \right\rceil \\ &= \left\lfloor \left(1-\dfrac{r_t(Q)}{Q}\right)[m]_t + \dfrac{tv}{Q} \right\rceil\\ &= [m]_t + \left\lfloor -\dfrac{r_t(Q)}{Q}[m]_t + \dfrac{tv}{Q} \right\rceil \end{aligned}$
由于 $[m]_t \in [-t/2,t/2)$ ，因此解密正确的条件是：
$\|v\|_\infty < \dfrac{Q}{2t} - \dfrac{r_t(Q)}{2}$
对比 BGV 的解密条件 $\|v\|_\infty < \dfrac{Q}{2t} - \dfrac{1}{2}$ ，由于 $\Delta$ 和 $Q / t$ 之间的差距，原始 BFV 的解密临界值比 BGV 偏小。

对于 $t = 2$ ，素数 $q_1,\cdots,q_k$ 都满足 $r_t(Q)=1$ ，但是对于一般的 $t$ （尤其是较大的，如 $t=2^{16}+1$ ），余数 $r_t(Q)$ 的规模将接近 $t /2$ ，对噪声增长有较大的贡献。如果强行设置 $q_i \equiv 1 \pmod t$ ，这限制了 RNS 素数的选取；或者放松一些，使得 $r_t(Q)<\sqrt N$ 是个较小的数，但依旧不能根本上解决问题。

同态加法：简记 $r_m=([m]_t + [m']_t-[m+ m']_t)/t$ 是 $t$ -overflow，满足 $\|r_m\|_\infty \le 1$
$\begin{aligned} (c_0+c_1s)+(c_0'+c_1's) &= (\Delta[m]_t + v)+(\Delta[m']_t + v')\\ &= \Delta[m+m']_t + \Delta tr_m + v+v'\\ &= \Delta[m+m']_t - r_t(Q)r_m + v+v'\\ \|v_{add}\|_\infty &= \|v+v'-r_t(Q)r_m\|_\infty\\ &\le \|v\|_\infty + \|v'\|_\infty + r_t(Q) \end{aligned}$
因此原始 BFV 的噪声增长也比 BGV 更大。

同态乘法（不执行重现性化）：注意 BFV 的张量运算是在 $\mathbb Z$ 上的（不要模 $Q$ ），然后执行缩放 $\lfloor t/Q \cdot ct_{tensor}\rceil$ ，最后才模掉 $Q$ ，简记 $r_m$ 是 $[m]_t \cdot [m']_t$ 的 $t$ -overflow，简记 $k_m,k_m'$ 是 $c_0+c_1s,c_0'+c_1'$ 的 $Q$ -overflow，易知 $\|k_m\|_\infty < \delta_\mathcal R\|c_1\|_\infty\|s\|_\infty/Q < \delta_\mathcal R/2$ ，
$\begin{aligned} (c_0+c_1s)\cdot(c_0'+c_1's) &= (\Delta[m]_t + v + Qk_m)\cdot(\Delta[m']_t + v' + Qk_m')\\ &= \Delta^2[m]_t \cdot [m']_t + \Delta[m]_t(v'+Qk_m') + \Delta[m']_t(v+Qk_m) + (v+Qk_m)(v'+Qk_m')\\ &= \dfrac{Q}{t}(\Delta[m\cdot m']_t + v_{tensor} + Q\cdot k_{tensor}) \end{aligned}$
其中的噪声项 $v_{tensor},k_{tensor}$ 的公式特别复杂。接着执行 $t / Q$ 缩放，舍入运算额外引入噪声 $v_r$ ，最后模掉 $Q$ 消除了 $k_{tensor}$ 部分，最终噪声是 $v_{mult} = v_{tensor}+v_r$ ，它的范数上界公式及其复杂，详见 [KPZ21] 推导。

原始 BFV 不需要缩放/模切换（隐式地嵌入到了同态乘法中），但是如果使用 GHS 秘钥切换，需要从 $c]_{PQ}$ 缩放到 $c/P]_{Q}$ ，这依旧需要用到 Scale 过程。类似于 BGV 的兼容 Full-RNS 的模切换，计算差距 $\delta$ 使得 $c+\delta$ 被 $P$ 整除，但是简单设置 $\delta=[[c]_P]_{PQ}$ 即可（因为 BFV 是 MSD 编码的，而 BGV 还要考虑对 $c]_t$ 的保护）。算法如下：

输入 $c=(c_0,c_1) \in \mathcal R_{PQ}$ ，我们试图计算 $c'=\lfloor c/P \rceil$ （Lift 到 $\mathbb Z$ 上）
计算 $\delta = ([c_0]_P,[c_1]_P)$ ，扩展到 $[\delta]_{PQ}$ 上（需要使用 RNS Basis Externsion，从基 $P$ 到基 $Q$ ）
此时 $\mid (c+\delta)$ ，计算出 $c'=[(c+\delta)\cdot P^{-1}]_Q$ ，它恰好就是 $([c]_{PQ}+\delta)/P$ 的精确值（落在 $[- Q /2, Q /2)$ 内，不取模）

Multiply LSD and MSD

事实上，BGV 和 BFV 之间最大的不同，就是所采取的编码方式，这导致了不同的噪声控制技术。[AP13] 证明了 LSD 和 MSD 是等价的，只要 $\gcd(t,Q)=1$ ，那么两者之间可以相互转化（BGV 和 BFV 密文的转换）

[CP16] 指出 LSD-form Ciphertext 和 MSD-form Ciphertext 之间存在三种同态乘法，分别是：LSD x LSD、LSD x MSD、MSD x MSD。不过文中介绍的主要是它设计的算法库如何使用（全是他们设计的伪代码），并没有详细介绍原理。LSD x LSD 和 LSD x MSD 的效率类似，而 MSD x MSD 的效率则低得多（要 Lift 到 $\mathbb Z$ 上，计算缩放和舍入）

这里推导下 LSD x MSD 形式的乘法，
$\begin{aligned} c(s) &= [m]_t + tv + Qk_m\\ c'(s) &= \Delta[m']_t + v' + Qk_m' \end{aligned}$
类似于 LSD x LSD，张量积可以直接在 $\mathcal R_Q$ 中计算（因为不需要缩放，所以不需要 Lift 到够大的 $\mathbb Z_{PQ}$ 上模拟 $\mathbb Z$ ），
$\begin{aligned} c(s) \cdot c'(s) &= ([m]_t + tv)\cdot (\Delta[m']_t + v' )\\ &= \Delta([m \cdot m']_t + r_mt) + [m]_tv' + t\Delta[m']_tv + tvv' \pmod Q \end{aligned}$
计算结果是 MSD-form 的，因为 $t\Delta=Q-r_t(Q)$ ，噪声为
$v_{tensor} = [m]_tv' -r_t(Q)(r_m + [m']_tv) + tvv'$
噪声增长也与 $r_t(Q)$ 有关，需要控制它。使用下文的技术，可以修改 MSD-form 的加密方式，移除 $\Delta$ 导致的 $r_t(Q)$ ，
$\begin{aligned} c(s) \cdot c'(s) &= ([m]_t + tv)\cdot (\frac{Q}{t}[m']_t + \epsilon' + v' )\\ &= \frac{Q}{t}([m \cdot m']_t + r_mt) + [m]_t(\epsilon'+v') + Q[m']_tv + tv(\epsilon'+v') \pmod Q\\ v_{tensor} &= [m]_t(\epsilon+v') + tv(\epsilon'+v') \end{aligned}$

Modified BFV

Remove $\Delta$

[KPZ21] 将原始 BFV 使用的 $\Delta$ 移除，加密算法修改为更加自然的方式：
$Enc([m]_t) = \left( pk_0\cdot u+e_0+\left\lfloor\dfrac{Q}{t}[m]_t\right\rceil, pk_1 \cdot u+e_1\right) \in \mathcal R_Q^2$

其中的 $\left\lfloor\frac{Q}{t}[m]_t\right\rceil \pmod Q$ 可以直接在 RNS 下计算：
$\left\lfloor\frac{Q}{t}[m]_t\right\rceil = \frac{Q[m]_t - [Qm]_t}{t} = [Qm]_t \cdot (-t^{-1}) \pmod Q$
其中的 $Q]_t$ 和 $t^{-1}]_Q$ 的 RNS 表示，都是预计算的。

我们简记 $\lfloor [m]_tQ/t \rceil = [m]_tQ/t + \epsilon$ ，易知 $\|\epsilon\|_\infty \le 1/2$ ，假设 $v$ 是密文噪声， $k$ 是线性解密的 $Q$ -overflow，
$\begin{aligned} \left\lfloor\dfrac{t}{Q}[c_0+c_1s]_Q\right\rceil &= \left\lfloor\dfrac{t}{Q}\left( \dfrac{Q}{t}[m]_t+\epsilon+v+kQ \right)\right\rceil\\ &= [m]_t + tk + \left\lfloor\dfrac{t}{Q}(\epsilon+v )\right\rceil \end{aligned}$
解密正确的条件是：
$\left\|\dfrac{t}{Q}(\epsilon+v )\right\|_\infty<1/2 \Longrightarrow \|v\|_\infty < \dfrac{Q}{2t}-\dfrac{1}{2}$
这与 BGV 的解密临界值是完全相同的了。同理，同态加法的噪声也与 BGV 的完全一样：
$\begin{aligned} (c_0+c_1s)+(c_0'+c_1's) &= (\frac{Q}{t}[m]_t +\epsilon + v)+(\frac{Q}{t}[m']_t +\epsilon' + v')\\ &= \frac{Q}{t}([m+m']_t+r_mt) +v+v'+\epsilon+\epsilon' \pmod Q\\ \|v_{add-new}\|_\infty &= \|v+v'+\epsilon+\epsilon'\|_\infty\\ &\le \|v\|_\infty + \|v'\|_\infty + 1 \end{aligned}$
同态乘法的噪声，也被移除了 $r_t(Q)$ 导致的噪声增长，
$\begin{aligned} (c_0+c_1s)\cdot(c_0'+c_1's) &= (\frac{Q}{t}[m]_t + \epsilon + v + Qk_m)\cdot(\frac{Q}{t}[m']_t + \epsilon' + v' + Qk_m')\\ &= \frac{Q}{t}\left(\frac{Q}{t}[m]_t \cdot [m']_t + [m]_t(\epsilon'+v'+Qk_m') + [m']_t(\epsilon+v+Qk_m)\right) + (\epsilon+v+Qk_m)(\epsilon'+v'+Qk_m')\\ &= \dfrac{Q}{t}(\dfrac{Q}{t}[m\cdot m']_t + v_{tensor-new} + Q\cdot k_{tensor-new}) \in \mathcal R \end{aligned}$
其中的 $v_{tensor-new},k_{tensor-new}$ 依旧是较为复杂的式子（详见 [KPZ21]），上式在 $\mathcal R$ （不要取模）中的主项是 $Q^2k_mk_m'$ ，缩放 $t / Q$ 之后的主项是 $Qtk_mk_m'$ ，紧接着的舍入引入噪声 $v_r$ ，模 $Q$ 消除 $k_{tensor-new}$ 的部分，最终的噪声为 $v_{mult-new}=v_{tensor-new}+v_r$ ，它的范数上界是个很复杂的式子（移除了 $r_t(Q)$ 的影响，实际上接近 BGV 的界）

Enc with larger modulus

类似于 GHS-BGV，它加密之后立即模切换，将噪声从 $v_{fresh}$ 降低到 $v_{ms}$ 水平。[KPZ21] 也使用类似的技术，在 $Qp$ 上加密，然后使用 Scale 过程回到 $Q$ 上。

我们首先在 $Q^{'} = Qp$ （噪声比率下降了）上执行 $Enc([m]_t)$ ，获得密文 $ct_{fresh}$ ，噪声为 $v_{fresh}$ ，接着使用 Scale 过程缩放 $1/ p$ ，
$\begin{aligned} ct_{scale} &= \left\lfloor \frac{ct}{p} \right\rceil \pmod Q\\ \|v_{scale}\|_\infty &\le \frac{\|v_{fresh}\|_\infty}{p} + \frac{1}{2p} + \frac{1+\delta_\mathcal R B_{key}}{2} \end{aligned}$
选取合适的 $p$ ，使得缩放后的噪声降低为 $\|v_{scale}\|_\infty \approx (1+\delta_\mathcal R B_{key})/2$ ，使得它接近 Scale 过程本身带来的噪声项。如果采用 GHS Key-Switch，那么 $p$ 可以复用临时模数 $P$ 中的某个 RNS 基，从而不影响安全性。

Modified Multiplication

因为 BFV 需要在 $\mathbb Z$ 上计算 tensor 运算，因此对于 RNS 系统，需要选取一个合适的 $P$ （这和 GHS Key-Switch 使用的不同），使得 $\cdot ct(s') \in \mathcal R$ 的系数不回绕 $PQ$ ，并且缩放后的主项 $Qtk_mk_m'$ 不回绕 $P$ ，因此需要设置 $t\delta_\mathcal R^3 Q/4$ 。一般地 $\le 2^{30}, N \le 2^{14}$ ，那么 $t\delta_\mathcal R^3/4 \le 2^{52}$ 。令 $Q, P$ 分别分解为 $k, l$ 个规模尽可能大（一般是 $2^{60}$ ，令 RNS 中的 NTT 更少）的素数，实际中设置 $l = k + 1$ 即可。

RNS 下的原始 BFV 乘法：

在这里插入图片描述

[KPZ21] 提出，并非两个模数 $Q$ 下的密文做张量积（它的主项是 $Q^2$ 的倍数，需要 $PQ$ 够大从而不回绕），而是一个是模数 $P$ 下的、另一个是模数 $Q$ 下的，此时密文张量积的主项是 $PQ$ 的倍数，可以被 $\pmod{PQ}$ 正确地消除，从而 $P$ 只需要满足其他较小的项不回绕即可，它的规模可以减小。

给定两个密文 $\in \mathcal R_Q$ ，首先对 $c$ 进行缩放，
$\hat c = \left\lfloor \frac{P}{Q} c \right\rceil \in \mathcal R_P$
简记 $\hat \epsilon = (\hat c-P/Q\cdot c)(s)$ 是上述舍入导致的噪声，上界是 $(1+\delta_\mathcal R B_{key})/2$ ，那么
$\hat c(s) = \frac{P}{t}[m]_t + \frac{P}{Q}(\epsilon + v) + Pk_m + \hat \epsilon$
于是新的密文张量的运算是：
$\begin{aligned} &\,\, \left(\frac{P}{t}[m]_t + \frac{P}{Q}(\epsilon + v) + Pk_m + \hat \epsilon\right) \cdot \left(\frac{Q}{t}[m']_t + \epsilon' + v' + Qk_m'\right)\\ &= \frac{P}{t} \left(\frac{Q}{t}[m \cdot m']_t + Qr_m + [m]_t(\epsilon' + v' + Qk_m') \right) +\left(\frac{P}{Q}(\epsilon + v) + \hat \epsilon\right) \cdot \left(\frac{Q}{t}[m']_t + \epsilon' + v'\right) \\ &+ \left(\frac{P}{Q}(\epsilon + v) + \hat \epsilon\right) \cdot Qk_m' + Pk_m \cdot \left(\frac{Q}{t}[m']_t + \epsilon' + v'\right) + PQk_mk_m' \pmod{PQ} \end{aligned}$
其中的主项 $PQk_mk_m' \equiv 0 \pmod{PQ}$ 可被消除，只要其他部分不回绕 $PQ$ 即可。接着对上述的 $\hat c_{tensor}$ 缩放 $t / P$ 回到 $Q$ 上，它的噪声比 $v_{mult-new}$ 额外增加了一项（详见 [KPZ21]），但是只要选取 $\approx Q$ 即可使得额外的这项的规模降低为 $t\delta_\mathcal R^3/4$ 。随着 BFV 的计算（除了新鲜密文的噪声规模仅为 $\delta_\mathcal R/2$ ），密文中的噪声会远大于这个数（注意 BGV 控制噪声的绝对大小，而 BFV 的噪声则一直在变大），因此额外的噪声项可以被忽略。因此选取 $l = k$ 即可，这减小了基 $P$ 的 RNS 系统中的一个分量。

新的 RNS 下的 BFV 乘法：

在这里插入图片描述

在原始乘法中，初始时将 $c, c^{'}$ （degree-1）扩展到 $PQ$ 需要 $4$ 次 RNS 扩展，缩放 $c_{tensor}$ （degree-2）时把 $[\delta]_P$ 扩展到 $[\delta]_{PQ}$ 需要 $3$ 次 RNS 扩展，最后 $c_{scale}$ （degree-2）从 $P$ 回到 $Q$ 再需要 $3$ 次 RNS 扩展，共计 $10$ 个。[KPZ21] 的乘法中，初始将 $c$ 切换到 $P$ 需要 $2$ 次 RNS 扩展，将 $\hat c,c'$ 扩展到 $PQ$ 需要 $4$ 次 RNS 扩展，最后的缩放 $\hat c_{tensor}$ 的过程需要 $3$ 次 RNS 扩展，它的结果已经是 $Q$ 下的（不再需要 RNS 扩展），共计 $9$ 个。此外，新算法的临时模数 $P$ 也略小（一个 RNS 分量）。

Level Multiplication

此外，类似于 [GHS12] 的 BGV 变体，我们可以动态估计噪声，然后在 BFV 乘法的内部执行 ScaleDown 和 ScaleUp，在较小的模数 $Q_l \le Q$ 上执行同态乘法（RNS 的分量更少，使得 NTT 和 RNS Basis Extersion 都更快）

假设两密文的噪声为 $v, v^{'}$ ，缩放后的噪声是
$\hat v = \frac{Q_l}{Q}v + \epsilon,\,\, \hat v' = \frac{Q_l}{Q}v' + \epsilon'$
其中的 $\epsilon,\epsilon'$ 是缩放时的舍入噪声，规模 $(1+\delta_\mathcal R B_{key})/2 \approx \delta_\mathcal R/2$ ，因此我们应当选取合适的 $Q_l$ ，使得缩放后的噪声 $\frac{Q_l}{Q}v$ 的范数远比 $\delta_\mathcal R/2$ 大（从而令舍入噪声 $\epsilon$ 的影响不算大）。[KPZ21] 给出的建议是，选取 $Q_l$ 为满足下式的、尽可能小的模数，
$\|v\|_\infty > \frac{8Q\delta_\mathcal R}{Q_l}$
为了估计 $v$ 的（平均）规模，[KPZ21] 使用了最坏噪声估计，额外添加一个启发式的缓冲（heuristic “cushion” to worst-case bound）。

Level BFV 的同态乘法：

在这里插入图片描述

上述的 Modulus-Switch，既可以是精确的（使用 [HPS19] 的浮点纠错技术），也可以是近似的（携带着 $Q$ -overflow， $u < k /2$ ），后者需要估计噪声 $v$ 时额外添加 $\log k$ 比特。

这个 “Leveled optimization” 也可以应用到其他过程上，比如 Key-Switch，不过 $Q_l$ 的选取规则改变为：使得缩放后的噪声 $\hat v$ 远大于 $v_{ks}$ ，从而保证秘钥切换过程本身对噪声增长的贡献可忽略。

BFV Optimizations

Lazy Scaling

在 RNS 下每一次 Scale 过程需要花费一次 RNS Basis Externsion，对于内积运算，我们可以将它们延迟到最后统一执行，并非每次乘法之后立即执行。好处有两个：复杂度降低、噪声下降（每次 Scale 本身会引入一定的噪声）。

在这里插入图片描述

[KPZ21] 测试后发现，这导致了 2x 加速。

Digit Decomposition Technique for RNS

[HPS19] 的 BFV 变体，它使用了浮点指令来纠正 RNS Basis Externsion、Scale 中的错误。对于后者，给定 $\in \mathbb Z_Q$ ，计算 $y=\lfloor t/Q \cdot x\rceil \in \mathbb Z_t$ 的公式为：
$\begin{aligned} y &= \left\lfloor \dfrac{t}{Q} \cdot x \right\rceil = \left\lfloor \dfrac{t}{Q} \cdot \sum_{i=1}^k x_i \cdot q_i^* \cdot \tilde q_i - u \cdot t \right\rceil\\ &= \left\lfloor \sum_{i=1}^k x_i \cdot \left(\dfrac{t}{q_i} \cdot \tilde q_i\right) \right\rceil - u \cdot t \pmod{t}\\ \end{aligned}$
[HPS19] 预计算其中的常数，分为整数和小数两部分，
$\dfrac{t}{q_i}\cdot[\tilde q_i]_{q_i} = \omega_{i}+\theta_{i},\,\, \omega_{i} \in \mathbb Z_{t},\,\, \theta_{i} \in [-0.5,0.5)$
小数部分使用浮点表示 $\theta_i^*=\theta_i+\epsilon_i, |\epsilon_i|<\epsilon$ （如果使用 IEEE-754 double 则误差规模是 $\epsilon=2^{-53}$ ），计算出的 $v^*=\left\lfloor \sum_{i=1}^k x_i (\omega_{i}+\theta_{i}^*) \right\rceil$ 可能会和 $v=\left\lfloor \sum_{i=1}^k x_i (\omega_{i}+\theta_{i}) \right\rceil$ 有差异。假如我们约束 $\left\lfloor \frac{t}{Q} \cdot x \right\rceil$ 满足 $\pmod{\mathbb Z} \in [-1/4,1/4]$ （控制密文中的噪声规模小于 $Q /4 t$ ，而非通常的 $Q /2 t$ ），那么只要累积误差满足 $|\sum_i x_i \epsilon_i| < 1/4$ （精度足够高的浮点数），就总是可以正确舍入（ $v=v^*$ ）

浮点数的精度要求是： $\epsilon < \frac{1}{2kq_m}$ ，其中 $q_m$ 是 RNS 模数的规模，一般而言 $k < 32$ ，假如 $q_m > 2^{47}$ ，那么就需要 $\epsilon<2^{-53}$ （IEEE-754 double 精度不够了，需要使用更高精度的）。[KPZ21] 提出了一种通用目的数字分解技术（类似于 BV Key-Switch），降低 $q_m$ 的规模，从而只需要常规的单精度数据类型：选取 base $B_s \ge 2$ ，设置 $d_s=\lceil \log_{B_s}(q_m)\rceil$ ，将 $x_i \in [-q_m/2,q_m/2)$ 分解为 $\sum_{j=0}^{d_s-1} x_{ij} B_s^j$ ，其中 $x_{ij} \in [0,B_s)$ （符号怎么处理？）

那么 Scale 过程的公式为：
$\begin{aligned} y &= \left\lfloor \sum_{i=1}^k \sum_{j=0}^{d_s-1} x_{ij} \left(B_s^j \cdot \dfrac{t\tilde q_i}{q_i}\right) \right\rceil - u \cdot t \pmod t \end{aligned}$
类似的，预计算
$\dfrac{t}{q_i} \cdot [\tilde q_iB_s^j]_{q_i} = \omega_{ij}+\theta_{ij},\,\, \omega_{ij} \in \mathbb Z_{t},\,\, \theta_{ij} \in [-0.5,0.5)$
其中的 $\theta_{ij}$ 被近似表示为 $\theta_{ij}^*$ ，在线计算 $v^* = \left\lfloor \sum_{i=1}^k \sum_{j=0}^{d_s-1} x_{ij} (\omega_{ij}+\theta_{ij}^*) \right\rceil$ ，累积误差是 $|\sum_i\sum_j x_{ij}\epsilon_{ij}| < kd_sB_s\epsilon < 1/4$ ，浮点精度只需满足 $\epsilon<\frac{1}{4kd_sB_s}$ 即可

一般地 $q_m \le 2^{63}$ ，因此设置 $d_s=2$ 即可，对应的 $B_s \approx 2^{32}$ ，带入 $\le 32$ ，计算出 $\epsilon < 2^{-40}$ （IEEE-754 double）

上述分解技术可以应用到 mixed integer/floating-poinit 的其他 RNS 操作中。另外，计算 $|\sum_i\sum_j x_{ij}w_{ij}| < kd_sB_st$ ，只要它不大于 $2^{64}$ ，完全可以累积在 long int 中（不立即取模），直到最后才统一模掉 $t$

BGV Optimizations

[GHS12] 使用 dynamic noise estimation，以确定什么是否需要做模切换，以及模切换的缩放因子是多少。但是这导致了 BGV 的对于噪声估计错误的脆弱性：BGV 是 LSD 编码的，每次的缩放因子 $q_k$ 大约就是噪声规模。而 BFV 的鲁棒性好很多：它是 MSD 编码的，缩放因子 $Q / t$ 是很大的，只需要预设乘法深度，并不需要实时估计噪声规模。

[KPZ21] 为了使得 BGV 更加 Usable（主要是易用，但是性能比 GHS 的差），设置了一个恒定的噪声水平 $\|v_c\|_\infty \approx 1+\delta_\mathcal RB_{key}$ （模切换自身导致的噪声增长是 $\|v_{ms}\|_\infty =(1+\delta_\mathcal RB_{key})/2$ ，设为它的两倍），在同态乘法之前自动执行模切换，将噪声水平降低到 $\|v_c\|_\infty$ 之下，那么有 $\|v_{mult}\|_\infty \le \frac{\delta_\mathcal R t}{2} \cdot(2\|v_c\|_\infty^2 + 2\|v_c\|_\infty + 1)$

根据要计算的电路的一些信息：乘法深度 $L$ 、每层的加法次数 $n_{add}$ 、每层的自同构次数 $n_{ks}$ ，我们设置合适的比率 $Q_{i+1}/Q_{i}$ ，使得
$\frac{Q_i}{Q_{i+1}}\Big((n_{add}+1) \cdot \|v_{mult}\|_\infty + n_{ks} \cdot \|v_{ks}\|_\infty\Big) + \|v_{ms}\|_\infty \le \|v_c\|_\infty$
加密之后，第一次乘法之前，也会做一些运算，我们设置合适的 $Q_{L+1}/Q_L$ （类似 GHS 变体，加密后立即模约简，将 $v_{fresh}$ 降低到 $v_{ms}$ 水平），
$\frac{Q_L}{Q_{L+1}}\Big((n_{add}+1) \cdot \|v_{fresh}\|_\infty + n_{ks} \cdot \|v_{ks}\|_\infty\Big) + \|v_{ms}\|_\infty \le \|v_c\|_\infty$
解密之前，从 $Q_1$ 切换到 $Q_0$ 使得噪声水平为 $\|v_c\|_\infty$ ，我们确定合适的模数，使得解密正确（ $\|v\|_\infty < \frac{Q}{2t}-\frac{1}{2}$ ），
$Q_0> 2t\|v_c\|_\infty-t$
因此我们先确定底层模数 $Q_0$ ，接着根据比值 $Q_{i+1}/Q_i$ 计算出中间模数 $Q_{i+1}$ ，最后根据比值 $Q_{L+1}/Q_L$ 确定顶层模数 $Q_{L+1}$ 。为了兼容 RNS，我们设置 $q_i=Q_{i}/Q_{i-1}$ 是满足 $q_i \equiv 1 \pmod{2N}$ 的素数（除了 $q_{L+1}=Q_{L+1}/Q_L$ ，它只用于模切换，并不用于密文乘法）

Comparison of BGV and BFV

BFV：

对于很小的明文模数（比如 $t = 2$ ），随着同态运算噪声的规模不断增长，秘钥切换的噪声远远小于乘法的噪声，基本可以忽略
缩放因子是 $t / Q$ ，RNS 使用的素数规模尽可能的大（数量比乘法层数小）接近机器字的规模（比如 $60$ 比特），因此 RNS 素数的个数 $l$ 更少
BFV 的乘法复杂度为 $14 l$ 个 NTT（两个 $c, c^{'}$ 各自从 $Q$ 扩展到 $PQ$ ，其中 $\approx Q$ ，花费 $(4 + 4) l$ 个 forward NTT， $c_{tensor}$ 回到系数表示以执行 Scale 过程，花费 $6 l$ 个 inverse NTT），这比 BGV 高很多
移除 $\Delta$ 的 BFV，噪声控制总是比 BGV 更好，但是渐进复杂度比 BGV 更高。对于小模数，实际性能会比 BGV 好一些
Level BFV 相比原始 BFV 提速明显，同态乘法最高有 3-4x 的提速

BGV：

对于很小的明文模数（比如 $t = 2$ ），由于模切换降低了噪声的绝对大小，秘钥切换的噪声接近乘法的噪声，影响较为显著
缩放因子是 $Q_{i}/Q_{i+1}$ ，RNS 使用的素数规模尽可能的小（数量等于乘法层数）接近噪声的规模（比如 $20, 30$ 比特），因此 RNS 素数的个数 $l^{'}$ 更多（可以多个小模数打包到单个机器字，从而降低复杂度）
BGV（乘法之前）模切换的复杂度为 $4 (l^{'} + 1)$ 个 NTT（本来以 NTT 存储，将 $c]_{q_k}$ 分量回到系数表示，花费 $2$ 个 NTT，将 $[\delta]_Q$ 转换到 NTT 表示，花费 $2 l^{'}$ NTT，输入了 $2$ 个密文），但是因为 $l^{'} > l$ （甚至 $t = 2$ 时有 $l^{'} > 3 l$ ），所以差距并没有 $14 : 4$ 那么大
对于中等规模（比如 $t=2^{16}+1$ ）以及大规模（比如 $t=2^{30}-2^{18}=1$ ）的明文模数，RNS 素数的规模更大，使得 $l^{'} / l < 2$