Baby-Step Giant-Step Homomorphic DFT-编程知识

参考文献：

[CT65] Cooley J W, Tukey J W. An algorithm for the machine calculation of complex Fourier series[J]. Mathematics of computation, 1965, 19(90): 297-301.
[Shoup95] Shoup V. A new polynomial factorization algorithm and its implementation[J]. Journal of Symbolic Computation, 1995, 20(4): 363-397.
[CHKKS18] Cheon J H, Han K, Kim A, et al. Bootstrapping for approximate homomorphic encryption[C]//Advances in Cryptology–EUROCRYPT 2018: 37th Annual International Conference on the Theory and Applications of Cryptographic Techniques, Tel Aviv, Israel, April 29-May 3, 2018 Proceedings, Part I 37. Springer International Publishing, 2018: 360-384.
[CHH18] Cheon J H, Han K, Hhan M. Faster homomorphic discrete fourier transforms and improved fhe bootstrapping[J]. Cryptology ePrint Archive, 2018.
Nussbaumer Transform 以及 Amortized FHEW bootstrapping
Chimera：混合的 RLWE-FHE 方案
快速乘法技巧：Karatsuba, Toom, Good, Schonhage, Strassen, Nussbaumer
Paterson-Stockmeyer 多项式求值算法

文章目录

Baby-Step Giant-Step
- Shoup95
- CT65
- CHKKS18
Faster Homomorphic DFT
- Sparse-Diagonal matrix Factorization
- Radix-r
- Hybrid method
- Result

Baby-Step Giant-Step

Shoup95

文章 [Shoup95] 研究并实现了 BSGS factoring method，用于将单变元多项式分解为不可约因子。其中使用了 CRT 和 FFT 来表示多项式（比 GHS12 的 Doube-CRT 更早），并且实现了多项式的快速乘法、除法、逆元、平方、GCD 等等运算。

多项式分解可以分为三步，

square-free factorization：将多项式分解为 $\prod_i f_i$ ，其中的 $f_i$ 是平方自由的
distinct-degree factorization：将平方自由多项式分解为 $f_i = \prod_j f_{i,j}$ ，其中的 $f_{i,j}$ 是一些度数都为 $j$ 的不可约因式的乘积
equal-degree factorization：将不可约因式都是相同度数的平方自由多项式 $f_{i,j}$ ，分解为这些不可约多项式

主要步骤集中在 step 2，[Shoup95] 观察到事实：对于任意的非负整数 $\in \mathbb Z^+$ ，多项式 $h_{a,b}(x) = x^{p^a} - x^{p^b} \in GF(p)[x]$ 以所有的满足 $\deg f|(a-b)$ 的不可约多项式 $f$ 为因式。

对于 $\deg f \le n$ 的平方自由多项式，它的真因子度数不超过 $n /2$ ，我们令 $f_d,1 \le d \le n$ 是它的全部 $d$ 次不可约因子的乘积。我们可以枚举全部的 $1\le a-b\le n$ ，计算出 $h_{a,b}(x)$ ，再计算 $gcd(h_{a,b},f)$ 从而获得这些 $f_d$

[Shoup95] 使用 BSGS 算法来计算这些 $h_{a,b}$ ，设置真因子的度数上界 $B$ ，将它分为 $\cdot m$ ，Baby-Step 就是 $\{i:1 \le i \le l\}$ ，Giant-Step 就是 $\{l \cdot j:1 \le j \le m\}$ ，

在这里插入图片描述

然而，如果简单地直接计算 $h_i,H_j$ ，上述算法依旧是不实用的。[Shoup95] 以迭代的方式计算它们： $h_{i+1} = h_i(h_1) \pmod f$ ， $H_{j+1} = H_j(H_1) \pmod f$ ，现在的问题是如何快速计算这些 modular-composition，形如 $\pmod f$

[Shoup95] 依旧采取 BSGS 算法（类似于 [PS73] 多项式求值算法），选取参数 $\approx \sqrt n$ ，预计算 $h^i \pmod f, 0 \le i \le t$ 表格，那么：
$\sum_{j=0}^{n/t} g_j(x) \cdot y^j,\,\, y=x^t,\,\, \deg g_j < t$
于是，直接使用预计算表的内容，简单计算加法（以及数乘），
$g_j(h) = \sum_{i=0}^t g_{j,i} \cdot h^i \pmod f$
接着，采取 Horner 法则，计算出
$((g_{n/t} \cdot h^t + \cdots)\cdot h^t +g_1)\cdot h^t + g_0$
其中的多项式运算都是以 Double-CRT 方式计算的，总的复杂度为 $O(n^{2.5}+n \log n \log\log n\log p)$

CT65

[CT65] 给出了递归形式的 DFT 分解，其实也是可以视为一种 BSGS 版本的 FFT 算法。DFT 公式为：
$A_j := \sum_{k=0}^{N-1} a_k \cdot \zeta^{jk}$
采取 BSGS 算法，分解为 $N=N_1 \cdot N_2$ ，设置索引
$\begin{aligned} j &:= N_1 \cdot j_1 + j_0,\,\, j_0 \in [N_1], j_1 \in [N_2]\\ k &:= N_2 \cdot k_1 + k_0,\,\, k_0 \in [N_2], k_1 \in [N_1]\\ \end{aligned}$
那么有
$\begin{aligned} A_{j_1,j_0} &:= \sum_{k_0 \in [N_2]} \sum_{k_1 \in [N_1]} a_{k_1,k_0} \cdot \zeta^{jk}\\ &= \sum_{k_0 \in [N_2]} \left(\sum_{k_1 \in [N_1]} a_{k_1,k_0} \cdot \zeta^{N_2jk_1}\right) \cdot \zeta^{jk_0}\\ &= \sum_{k_0 \in [N_2]} \left(\sum_{k_1 \in [N_1]} a_{k_1,k_0} \cdot \zeta^{N_2jk_1}\right) \cdot \zeta^{j_0k_0} \cdot \zeta^{N_1j_1k_0}\\ \end{aligned}$
于是，将 $a_N$ 按照行主序，排列为形状 $N_1 \times N_2$ 的矩阵 $a_{N_1 \times N_2}$ ，

对于每一个 $k_0$ ，利用形状 $N_1 \times N_1$ 的矩阵
$W_1:=\{\zeta^{j_0k_1}\}_{j_0,k_1}$
计算长度为 $N_1$ 的各个列矢 $a_{k_0}$ 的 NTT 变换（单位根为 $\{\zeta_{N_1}^{j_0},j_0 \in [N_1]\}$ ），得到形状 $N_1 \times N_2$ 的矩阵
$W_1 \times a_{N_1 \times N_2} = \left\{A_{j_0,k_0}' := \sum_{k_1 \in [N_1]} a_{k_1,k_0} \cdot \zeta^{N_2jk_1}\right\}_{j_0,k_0}$
利用形状 $N_1 \times N_2$ 的矩阵
$W_2 := \{\zeta^{j_0k_0}\}_{j_0,k_0}$
对它做 Hadamard 乘积，扭曲矩阵 $A^{'}$ 使得接下来的运算是标准 NTT（否则就需要恰当的扭曲后续 NTT 采用的单位根），此时的结果是形状 $N_1 \times N_2$ 的矩阵
$W_2 \odot A_{N_1 \times N_2}' = \left\{A_{j_0,k_0}'' := \zeta^{j_0k_0} \cdot\sum_{k_1 \in [N_1]} a_{k_1,k_0} \cdot \zeta^{N_2jk_1}\right\}_{j_0,k_0}$
对于每一个 $j_1$ ，利用形状 $N_2 \times N_2$ 的矩阵
$W_3 := \{\zeta_{N_2}^{j_1k_0}\}_{j_1,k_0}$
计算长度为 $N_2$ 的各个行矢 $A_{j_0}''$ 的 NTT 变换（单位根为 $\{\zeta_{N_2}^{j_1},j_1 \in [N_2]\}$ ），得到形状 $N_2 \times N_1$ 的矩阵
$W_3 \times (A_{N_1 \times N_2}'')^T = \{A_{j_1,j_0}\}_{j_1,j_0}$

对于形状 $N_2 \times N_1$ 的矩阵 $A_{N_2 \times N_1}$ ，按照行主序读取为 $A_N = NTT(a_N)$

总之， $a_N, A_N$ 都按照行主序排列为矩阵（形状不同），那么有：
$A_{N_2 \times N_1} = W_3 \times \Big(W_2 \odot \big(W_1 \times a_{N_1 \times N_2}\big)\Big)^T$
其实，这个过程可以用 Nussbaumer Transform 的环同态表示
$\mathbb F[x]/(x^N-1) \cong \Big(\mathbb F[y]/(y^{N_1}-1)\Big)[x]/(x^{N_2}-y) \cong \Big(\mathbb F[y]/(y^{N_1}-1)\Big)[z]/(z^{N_2}-1)$

CHKKS18

[CHKKS18] 利用 SIMD 技术的 Hadamard 和 Rotate 运算，实现同态的线性运算，它也采取了 BSGS 技巧。我们默认 index 都是自动 $\pmod n$ 的，基本符号：

对于任意的线性变换 $\in \mathbb C^{n \times n}$ ，简记 $diag_i(M) = [M_{0,i}, M_{1,i+1},\cdots,M_{n,i+n}]$ 是第 $\in \mathbb Z$ 条对角线（可以是负数 $- i$ ，就是第 $n - i$ 条对角线）
对于任意的矢量 $\in \mathbb C^{n}$ ，简记 $rot_i(v) = [v_i,v_{i+1},\cdots,v_{i+n-1}]$ 是循环左移 $\in \mathbb Z$ 距离（可以是负数 $- i$ ，循环右移 $i$ 距离）

采取 BSGS 算法，分解 $\times k$ ，线性变换可以表示为：

在这里插入图片描述

最优化时选取 $\approx \sqrt n$ ，计算复杂度为： $O(\sqrt n)$ 次 Rotate 运算（关于 $v$ 的密文）， $O (n)$ 次 Hadamard 运算。对于公开的固定矩阵 $M$ ，其中的 $rot_{-ki}(diag_{ki+j}(M))$ 是预计算的常数多项式（用 InvDFT 编码），它不需要 CKKS 密文下的 Rotate 运算。

在这里插入图片描述

[CHKKS18] 将上述的线性变换转换到 slot-packing CKKS 下同态计算，并利用它来实现 coeff-to-slot，从而批处理 CKKS 自举。用到的线性变换是 DFT 和 InvDFT，[CHKKS18] 将它们视为通用的线性变换，利用这个同态矩阵乘法来实现。

不过，对于公开的线性变换，直接使用 TFHE 提出的那种 Functional Key-Switch，效率要高得多。对于秘密的线性变换，TFHE 也提出了根据 $M$ 来构造 KS-Key for M，从而支持 Private Functional Key-Switch。但是如果没有提供这种特殊的 KS-Key for M，而是将 $M$ 加密为一般的 CKKS 密文，那么就只能使用上面的同态矩阵乘法，利用 Rotate 和 Hadamard 慢慢计算。

Faster Homomorphic DFT

[CHH18] 观察到 DFT 矩阵拥有稀疏分解（也就是蝴蝶算法），因此对于这种特殊的线性变换，可以比 [CHKKS18] 的通用矩阵乘法，复杂度降低一个 $n$ 因子。它可以应用在 [CHKKS18] 的 CKKS 批自举上，计算速度提高了数百倍。

Sparse-Diagonal matrix Factorization

[CHH18] 它说根据 [CT65] 的递归式 FFT，可以将 DFT 矩阵做如下的稀疏分解：

在这里插入图片描述

继续迭代地分解前者，最终可以获得：

在这里插入图片描述

容易看出， $diag_i(D_{2^i}^{(n)}) \neq \vec 0 \iff k\in \{0,\pm \dfrac{n}{2^i}\}$ ，只有 3 条对角线是非零的，因此采取斜线乘法来计算是十分高效的，
$D_{2^i}^{(n)} \cdot v = \sum_{k\in \{0,\pm n/2^i\}} diag_k(D_{2^i}^{(n)}) \odot rot_{k}(v)$
算法为：

在这里插入图片描述

注意到 $rot_0(v)=v$ 不必计算，对于特殊情况 $i = 1$ 根据 $rot_{n/2^i}(v)=rot_{-n/2^i}(v)$ 可节约计算。最终， $DFT \cdot v = \prod_{i=0}^{\log_2 n} D_{2^i}^{(n)} \cdot v$ 的复杂度为 $O(\log_2 n)$

对于逆变换，由于 DFT 的逆矩阵恰好是其厄米，

在这里插入图片描述
因此很明显 CT 蝴蝶和上述的 GS 蝴蝶一样，也是稀疏对角的，从而也存在类似的快速矩阵乘法。

Radix-r

不过虽然上述的操作次数很小，但是计算深度为 $log_2(n)$ ，需要多层 Rotate 和 CMult 串行，可能导致噪声控制的问题。我们可以合并某些连续的 $k$ 个矩阵，那么深度就降低为 $log_r n, r=2^k$ ，代价是计算复杂度的上升。

在这里插入图片描述

根据对角阵的乘法性质：两个对角阵的乘积，依旧是对角阵，
$diag_i(a) \cdot diag_j(b) = diag_{i+j}(a \odot rot_i(b))$
可以证明，连续 $k$ 个矩阵的合并
$D_{k,s} = D_{2^{s+k}}^{(n)} \cdots D_{2^{s+2}}^{(n)} \cdot D_{2^{s+1}}^{(n)}$
的非零对角线的索引为
$e_1 \cdot \dfrac{n}{2^{s+1}} + e_2 \cdot \dfrac{n}{2^{s+2}} + \cdots + e_t \cdot \dfrac{n}{2^{s+k}}$
其中 $e_i \in \{0,\pm1\}$ ，易知这些 index 都是 $\dfrac{n}{2^{s+k}}$ 的倍数，绝对值上界为 $\dfrac{(2^k-1)n}{2^{s+k}}$ ，这些 index 的个数至多为 $2^{k+1}-1$