基于NTT的循环码：RS码、BCH码、RM码

山登绝顶我为峰 3(^v^)3

已于 2022-08-23 18:45:23 修改

阅读量862

点赞数 3

分类专栏：编码学文章标签：算法线性代数数学信息安全编码理论

于 2022-05-14 22:36:09 首次发布

本文链接：https://blog.csdn.net/weixin_44885334/article/details/124775609

版权

编码学专栏收录该内容

10 篇文章 4 订阅

订阅专栏

NTT性质

令时域 $v=(v_i) \in GF(q)^n$ ，其中 $i$ 是时间，满足 $g c d (n, q) = 1$ 。那么 $\exists m \le n,\, n | q^m-1$ ，令 $\in GF(q^m)$ 满足 $w^n=1$ ，即 $w$ 是 $n$ 阶单位根。做NTT变换得到频域 $V=(V_j) \in GF(q^m)^n$ ，而 $s_j(i):=(w^j)^i$ 是函数空间的一组频率渐变的正交基。

NTT公式：
$V_j = \sum_{i=0}^{n-1} w^{ij} v_i = v(w^j),\, j=1,\cdots,n$
INTT公式：
$v_i = \frac{1}{n} \sum_{j=0}^{n-1} w^{-ij} V_j = \frac{V(w^{-i})}{n},\, i=1,\cdots n$
域 $F$ 上的线性递归式（linear recursion）：
$V_k = - \sum_{j=1}^L \Lambda_j V_{k-j},\, k=L,L+1,\cdots$
线性递归式完全由长度 $L$ 和连接权重（connection weights） $\Lambda$ 决定，记做 $(\Lambda,L)$ 。多项式 $\lambda(x)=1+\sum_{j=1}^L \Lambda_j x^j$ 叫做连接多项式（connection polynomial）， $\deg \lambda(x) \le L$ 。

给定一个序列 $V_0,\cdots,V_{n-1} \in F$ ，我们将能够生成这个序列的最短线性递归式的长度叫做 $V$ 的线性复杂度（linear complexity）。

一些性质：

可加（Additivity）： $\lambda v+\mu v' \iff \lambda V + \mu V'$
调制（Modulation）： $(v_i w^{il}) \iff (V_{(j+l)})$
转换（Translation）： $(v_{(i-l)}) \iff (V_j w^{jl})$
卷积（Convolution）： $\mod x^n-1 \iff E_j = F_j G_j$
零点（Zero）： $v(w^j)=0 \iff V_j=0$
抽取（Decimation）： $(v_{bi}) \iff (V_{Bj}),\, Bb \equiv 1 \mod n$
有限长度序列 $V$ 的线性复杂度，等于做INTT后 $v$ 的汉明重量。反之亦然。

循环码 $\mathscr C$ 的生成多项式为 $g (x)$ ，码字为 $c (x) = a (x) g (x)$ 。令 $G = NTT (g), A = NTT (a)$ ，那么 $C_j=A_jG_j \iff C=NTT(c)$ 。假设 $B=\{j_1,\cdots,j_{n-k}\}$ 是 $g (x)$ 的零点 $w^j$ 的指标，那么 $A_jG_j=0,\forall j \in B$ 。

因此，循环码也可以被定义为：空间 $GF(q)^n$ 中那些做NTT变换后在 $B$ 指定位置的频谱分量为 $0$ 的向量的集合，这些置零的频谱分量叫做校验频率（check frequencies）

共轭约束

对于 $GF(q^m)$ 上的向量 $V$ ，做INTT后得到的 $v$ 不一定会落入空间 $GF(q)^n$ 。

令 $\in GF(q^m)^n$ ，且 $n | q^m-1$ ，令 $v := I NTT (V)$ ，那么
$\in GF(q)^n \iff V_j^q = V_{(qj)},\, j=0,\cdots,n-1$
我们对 $Z_n$ 中元素做划分，得到共轭类（ $q -$ ary conjugacy classes）：
$B_j = \{j,jq,jq^2,\cdots,jq^{m_j-1}\}$
其中 $m_j$ 是使得 $jq^{m_j} \equiv j \mod n$ 的最小的正整数，它一定存在（ $g c d (n, q) = 1$ ）。我们说大小为 $m_j$ 的共轭类 $B_j$ 由 $j$ 代表。

根据定义易知， $C_{jq^{m_j-1}}^q = C_j$ ，于是
$C_j^{q^{m_j-1}})^q = C_j^{q^{m_j}} = C_j$
因此，由 $B_j$ 指定的那些频谱值应落在扩域 $GF(q^{m_j})$ 内。

也就是说，如果一个向量 $\in GF(q^m)^n$ 对应的 $v$ 落在 $GF(q)^n$ 内部，那么向量 $V$ 中由共轭类 $B_j$ 所指定的那些分量都由频谱值 $V_j \in GF(q^{m_j})$ 所完全决定，而不能随意选取。这就叫做共轭约束（conjugacy constraints）。

时域编码和频域编码

循环码有两种编码方式，

time-domain encoder：在时域上，利用生成多项式 $g (x)$ ，使用系统编码方式或者非系统编码方式，详见循环码。
frequency-domain encoder：在频域上，将 $g (x)$ 的所有零点 ${w^i\}_I$ 对应的位置 ${C_i\}_I$ 置零，作为校验符号。同时零点所在共轭类的位置也都置零。其他共轭类的代表元所指定位置作为数据符号，填入数据比特，而其他的位置要满足共轭约束条件。

Reed-Solomen Code

定义

令 $g c d (n, q) = 1$ ，一个 $GF (q)$ 上的长度为 $n ∣ q - 1$ 的RS码 $\mathscr C$ ，定义为：空间 $GF(q)^n$ 中那些做NTT变换后在特定的 $d - 1$ 个连续分量为零的所有的向量，这个连续分量记做 $\{j_0,j_0+1,\cdots,j_0+d-2\}$ 。

构造

由于 $n ∣ q - 1$ ，因此一个码字 $\in \mathscr C$ 做NTT变换后得到的 $C$ 依然属于 $GF (q)$ 。由于 $C_j=0 \iff C_j w^j = 0$ ，并且由于 $(c_{(i-1)}) \iff (C_j w^{j})$ ，因此RS码是循环码。由于 $C_j=0 \iff c(w^j)=0$ ，因此
$(x-w^{j_0})(x-w^{j_0+1})\cdots(x-w^{j_0+d-2})$
容易看出， $\deg g = d-1 = n-k$ 。由于 $C$ 包含 $d - 1$ 个连续的零分量，利用调制将它们搬移到最高频且不影响码字的汉明重量。那么 $C(x)=\sum_{j=0}^{n-d} C_j x^j$ 至多有 $n - d$ 个不同的零点，于是INTT后得到的 $c$ 至少有 $d$ 个分量，即 $d_{min} \ge d = n-k+1$ 。

Singleton Bound：对于 $(n, k)$ 线性码，其最小距离满足 $d_{min} \le n-k+1$

于是
$d_{min} = n-k+1 = d$
因此，RS码是极大距离可分码（maximum distance separable，MDS）。

构造方法：

确定 $n, q$ 使得 $n ∣ q - 1$ ，计算 $GF (q)$ 中的 $n$ 阶单位根 $w$ （如果 $n = q - 1$ ，那么叫做本原RS码）
根据需要纠错的数量 $t$ ，计算 $d = 2 t + 1$ ，然后任意选取 $j_0$ （一般选取 $j_0=1$ ）来确定使用哪些元素作为零点
我们得到了由 $g(x)=(x-w^{j_0})(x-w^{j_0+1})\cdots(x-w^{j_0+2t-1})$ 生成的 $(n, n - 2 t, 2 t + 1)$ RS码
若使用频域编码器，由于 $n ∣ q - 1$ 使得时域频域的有限域都是 $GF (q)$ ，因此我们只需设置 $V_{j_0}=\cdots=V_{j_0+2t-1}=0$ 。其他的 $n - 2 t$ 个位置的频谱都作为数据符号（ $\equiv 1 \mod n$ ，共轭类的大小都为 $m_j=1$ ，不必考虑共轭约束）
将数据 $a (x)$ 的系数按某种顺序填入，做INTT得到码字 $c (x)$

BCH Code

定义

令 $g c d (n, q) = 1$ ，一个 $GF (q)$ 上的长度为 $n|q^m-1$ 、设计距离为 $d$ 的BCH码 $\mathscr C$ ，定义为：空间 $GF(q)^n$ 中那些做NTT变换后在特定的 $d - 1$ 个连续分量为零的所有的向量。

注意，这里是 $n | q^m-1$ ，因此做NTT后的频谱落在域 $GF(q^m)$ 上。容易看出，RS码是 $m = 1$ 时的BCH码；同时， $GF (q)$ 上的BCH码是 $GF(q^m)$ 上的RS码的子空间，因此前者的最小距离大于等于后者的最小距离。

构造

BCH Bound：令 $n | q^m-1$ ，在 $GF(q)^n$ 中汉明重量至多为 $d - 1$ 的向量，如果它的频谱包含 $d - 1$ 个连续的零分量，那么它就是零向量。这可以通过循环抽取来扩展，因为抽取不改变汉明重量。

因此，设计距离为 $d$ 的BCH码的最小距离 $d_{min}$ 至少和 $d$ 一样大，并且往往有 $d_{min}>d$ 。

构造方法：

确定 $n, q$ 使得 $n|q^m-1$ ，然后将 $Z_n$ 划分为若干共轭类 $B_{j_1},\cdots,B_{j_r}$
根据需要纠错的数量 $t$ ，计算 $d = 2 t + 1$ ，然后选取某个 $j_0$ （一般选取 $j_0=1$ ），将 $d - 1$ 个连续频谱分量作为校验频率
将 $\{j_0,j_0+1,\cdots,j_0+d-2\}$ 所在的共轭类对应的频谱值都置零
将剩余共轭类的代表 $j_l$ 作为数据符号，有 $C_{j_l} \in GF(q^{m_{j_l}})$ ，这可视作长度为 $m_{j_l}$ 的 $GF (q)$ 上向量。其他的 $m_{j_l}-1$ 个位置按照共轭约束，由 $C_{j_l}$ 来生成
假设作为数据符号的那些共轭类的总大小为 $\sum_l m_{j_l}$ ，那么可以将 $GF(q)^k$ 上的向量分块填充到那些数据符号上，因此我们得到了 $(n, k)$ BCH码
最后，做INTT得到时域上的码字多项式

观察到校验频率以及它们的共轭频率都被置零，而校验频率 $w^j$ 的共轭类对应的频率为 $w^{jq},w^{jq^2},\cdots$ ，这些就是 $w^j$ 在 $GF(q^m)$ 上的共轭元。因此，BCH码的生成多项式为：
$lcm(f_1(x),\cdots,f_{d-1}(x))$
这里 $f_j(x)$ 是 $w^j$ 的极小多项式（以所有共轭元为单根）。如果 $w$ 是 $GF(q^m)$ 的本原根，那么 $n=q^m-1$ ，此时叫做本原BCH码。

Reed-Muller Code

定义

对于整数 $j$ ，将它写作 $j=j_0+j_{1}2+\cdots+j_{m-1}2^{m-1}$ （radix-2 representation），定义二进制重量（radix-2 weight）为
$w_2(j) = j_0+j_1+\cdots+j_{m-1}$
一个长度为 $n=2^m-1$ 的 $r$ 阶（order）的循环RM码 $\mathscr C$ ，是定义集为 $A=\{w^j: 0 < w_2(j) < m-r\}$ 的二元循环码（binary cyclic code）。

构造

由于 $d=2^{m-r}-1$ 的二进制表示就是 $m - r$ 比特的全幺串，因此 $\forall j=1,\cdots,d-1,\, w_2(j)\le m-r-1$ ，从而 $\{w,w^{2},\cdots,w^{d-1}\}$ 是RM码的定义集的子集。但同时，这也是设计距离为 $d$ 的BCH码的定义集。所以， $r$ 阶循环RM码是设计距离为 $d=2^{m-r}-1$ 的BCH码的子空间。

易知，长度为 $n=2^m-1$ 的 $r$ 阶循环RM码的极小距离满足 $d_{min} \ge 2^{m-r}-1$

构造方法：

确定 $m, r$ ，令 $n=2^m-1$ ，构造域 $GF(2^m)$ ，找到本原元 $w$
寻找所有的满足 $0 < w_2(j) < m-r$ 的 $m$ 比特的正整数 $j$ ，那么其生成多项式为 $g(x) = LCM(f_j(x))$ ，这里 $f_j(x)$ 是 $w^j$ 的极小多项式
将频域上的 $j$ 分量作为校验频率，同时将其共轭类所对应的频谱值置零。剩余的共轭类的代表作为数据符号，其他位置要满足共轭约束。