【代数学1-python实现GNFS一般数域筛】构造特定的整系数不可约多项式：涉及素数、模运算和优化问题

是Yu欸

已于 2024-12-28 16:10:45 修改

阅读量3.1k

点赞数 19

分类专栏：代数学 # 密码学探秘：现代密码与量子密码文章标签： python 开发语言笔记密码学安全网络安全 AIGC

于 2024-01-04 16:58:51 首次发布

本文链接：https://blog.csdn.net/wtyuong/article/details/135219371

版权

密码学探秘：现代密码与量子密码同时被 2 个专栏收录

24 篇文章

订阅专栏

代数学

7 篇文章

订阅专栏

代数学1-删减版：python实现GNFS一般数域筛

写在最前面
- 背景
- 在GNFS算法中选择互质多项式时，需要考虑哪些关键因素，它们对算法的整体运行时间有何影响?
练习1题目
题目分析
解决
1. 构造满足条件的多项式 $g (x)$ 和 $f (x)$
- 实现+代码优化
2.计算m
3. 计算多项式系数 $a_3$ , $a_2$ , $a_1$ 和 $a_0$ ，生成多项式
4. 计算 COUNT 并选择最优的 A/B
- 代码实现
最大化收益率
- 计算 COUNT 和优化 A/B

请添加图片描述

🌈你好呀！我是是Yu欸 🚀 感谢你的陪伴与支持~ 欢迎添加文末好友 🌌 在所有感兴趣的领域扩展知识，不定期掉落福利资讯(*^▽^*)

写在最前面

版权声明：本文为原创，遵循 CC 4.0 BY-SA 协议。转载请注明出处。

请添加图片描述

这门课有点意思，作业更有意思

在这篇博客中，我们将探讨如何使用 Python 与数论知识来解决一个有趣的数学问题，目标是构造两个整系数不可约多项式 $g (x)$ 和 $f (x)$ ，满足特定的模 $n$ 条件。

完整版包含全部过程（算法复杂度优化）

大整数分解是公钥密码学中一个非常重要的计算问题。用数域筛法（GNFS）是对大整数进行因式分解的渐近最快算法。
它的运行时间取决于多项式对的良好选择。多项式选择是GNFS的第一步，也是非常关键的一步。
这个方向的未来工作包括对更大的N进行实验，并测试其他基于启发式的技术来选择好的多项式。

参考：
【论文】
用于整数分解的数场筛中的多项式选择
Polynomial selection in number field sieve for integer factorization
一般数域筛选的多项式选择
ON POLYNOMIAL SELECTION FOR THE GENERAL NUMBER FIELD SIEVE

【github】
MSIEVE：用于分解大整数的库
MSIEVE: A Library for Factoring Large Integers

背景

公钥密码学在现代通信网络中起着重要作用。许多公钥密码系统的安全性取决于某些数论问题的棘手性。对大整数进行因式分解和在高阶循环群中求离散对数是最受欢迎的数论问题。

RSA（Rivest et al.， 1978）是一种广泛使用的公钥密码系统，其安全性依赖于大整数分解的难度。RSA 由两个密钥组成：公钥 $(N ， e)$ 和私钥 $d$ ，其中 $N$ 是两个不同大小的大素数 $p 、 q$ 的乘积， $e$ 是加密密钥， $d$ 是解密密钥。要解密加密消息，我们需要找到私钥 $d$ ，它等价于对模数 $N$ 进行因式分解。

一般数域筛（GNFS）（Lenstra和Lenstra，1993）是已知最有效的确定因子的算法 $p, q$ 这样的整数 $N$ 。GNFS方法包括五个主要步骤：多项式选择、因子基生成、筛分、矩阵步长和平方根计算。

在GNFS算法中选择互质多项式时，需要考虑哪些关键因素，它们对算法的整体运行时间有何影响?

在这里插入图片描述

在为GNFS算法选择互质多项式时，需要考虑几个关键因素，因为它们直接影响算法的整体运行时间。

根属性:多项式的选择应以最大化小素数模多项式的根属性为目标。这涉及到考虑前导系数及其对可用前导系数数量的影响，以及多项式中质因数的数量，这些因素会影响算法某些步骤的速度。
初始化时间:对于小度数来说，在某些步骤的初始化上花费了大量的时间。考虑 $p_0 \prod_{i=1}^{l} p_i$ 形式的公式，其中 $p_0$ 是一个数字(不一定是质数)，可以帮助减少初始化成本的百分比并优化过程。
可接受的值:对于非常大的整数，多项式的前导系数可接受的值的数量可能非常大。重要的是要考虑减小超范数界的方法，从而缩小可容许区间，同时仍然保证存在合适的多项式。这涉及到选择特定的可接受值，并可能限制搜索区间。
Sieve报告:筛选过程的效率对算法的整体运行时间至关重要。筛分报告的数量受多项式的选择影响，筛分报告是一对互质整数，其齐次多项式的两个值都是低于一定光滑界的素数的乘积。筛选时间主要取决于筛选区域的大小，多项式对的选择应以最小化筛选时间为目标。
偏度和偏上范数:多项式的偏度和偏上范数对算法的效率有很大的影响。多项式的选择应满足偏度、斜上范数和根属性等条件，这些条件是算法成功的关键。

练习1题目

在这里插入图片描述

练习一

给定如下 3 个已知条件:

$n = 1234268228312430759578090015472355712114804731217710966738223;$
正整数 A、B 的乘积 $AB=10^6;$
素数基 $S$ 为 $10^5$ 以内的所有素数。

试构造整系数不可约多项式 $g (x)$ 和 $f (x)$ ，其中
$\left\{ \begin{matrix} g(x)=m_1x-m_0\\ f(x)=c_4x^4+c_3x^3+c_2x^2+c_1x+c_0 \end{matrix} \right.$
满足 $m_1^4f\left(\frac{m_0}{m_1}\right) \equiv 0 \pmod{n} .$

记 $\in [-A,A] \times [1, B] | b^4f\left(\frac{a}{b}\right)$ ， $bg\left(\frac{a}{b}\right)$ 均在 $S$ 上平滑为实验过程中找到的可使 $b^4f\left(\frac{a}{b}\right)$ ， $bg\left(\frac{a}{b}\right)$ 均在 $S$ 上平滑的点对 $(a, b)$ 的集合，总数为 $CO U NT$ ，通过调整 $A$ 、 $B$ 、 $m_1$ 、 $m_0$ 、 $c_4$ 、 $c_3$ 、 $c_2$ 、 $c_1$ 、 $c_0$ ，使 $CO U NT$ 尽可能大，观察并简要分析:

设 $=\frac{A}{B}$ ， $s k e w$ 是否对 $CO U NT$ 产生影响。
系数 $c_4$ 的选取方式是否对 $CO U NT$ 产生影响。

要求给出所设计的多项式 $g (x)$ 、 $f (x)$ 以及 $A$ 、 $B$ 、 $CO U NT$ 的值。

题目分析

给定一个大整数 $n$ ，需要构造两个多项式 $g (x)$ 和 $f (x)$ ，使得它们在模 $n$ 意义下的计算结果能够在素数基 $S$ 上平滑。平滑性意味着计算结果可以被 $S$ 中的素数完全分解。

Kleinjung方法简介

Kleinjung方法是一种用于大整数分解的高效算法。它基于数域筛选算法（Number Field Sieve, NFS），是当前解决大整数分解问题最快的已知方法之一。

Kleinjung方法的核心思想是：在两个不同的数域中寻找平滑数（即只含有小素因子的数），并利用这些数构建线性方程组，从而分解大整数。

通用数域筛法（GNFS）中的多项式选择：筛选及其根属性

在通用数域筛法（GNFS）的算法实现中，多项式选择方法是一个核心环节。这个过程涉及到识别具有良好根属性的多项式对，是整个因数分解流程中不可或缺的一部分。下面展开说明，论文中关于这一过程中的关键概念和步骤。

筛选具有良好根属性的多项式

GNFS 算法中的一个关键步骤是筛选出形式为 $f 1 + c f 2$ 的多项式对，这些多项式对应具有良好的根属性。在这里， $f 1$ 和 $f 2$ 是代数多项式，而 $c$ 是一个具有有界系数的小度数多项式。目标是找到当这样组合时，具有有利根属性的多项式对。这些根的特性对于后续的分解步骤至关重要。

非首一线性多项式的考虑

论文探讨了非首一线性多项式，特别是形式为 $f 2 (x) = p x - m$ 的多项式，其中 $p$ 和 $m$ 是互质整数。这里的目标是找到另一个多项式 $\sum_{i=0}^{d} a_ix^i$ ，其次数为 $d$ ，使得 $f1\left( \frac{m}{p} \right) \cdot p^d = N$ ，其中 $N$ 是待分解的整数。在满足给定的同余条件 $\equiv N \mod p$ 的同时，需要最小化 $f 1$ 的系数。如果这个条件不满足，则不存在合适的多项式 $f 1$ 来满足这些标准。

引理 2.1：为满足 GNFS 算法中分解过程要求的多项式的存在性和属性

论文中提出的引理 2.1 提供了关于满足特定条件的多项式 $f 1 (x)$ 存在性的重要结果。它指出，在满足条件 $\equiv admd \mod p$ 且 $\geq \widetilde{m}$ 的情况下，存在一个多项式 $\sum_{i=0}^{d} a_ix^i$ 满足以下标准：

$f1\left( \frac{m}{p} \right) \cdot p^d = N$
$|a_{d-1}| < p + \frac{dad}{m - \widetilde{m}}$
$a_i| < p + m$ 对于 $\leq i \leq d - 2$

步骤规划

这个问题是关于构造特定的整系数不可约多项式，并且涉及到素数、模运算和优化问题。

如果完全解决这个问题，需要找到所有的点对 $(a, b)$ 的集合，这在计算上非常复杂的，需要借助相关编程软件，如python，segamath。以下是解决问题的一般步骤：

生成素数基: 需要生成所有小于 $10^5$ 的素数。
定义多项式：需要构造满足给定条件的 $g (x)$ 和 $f (x)$ ，使得 $m_1^4f\left(\frac{m_0}{m_1}\right)$ 在模 $n$ 下等于 0。由于是不可约多项式，且系数为整数，需要使用启发式方法或者数学知识来确定合适的系数。
寻找平滑数：对于一系列的 $(a, b)$ 值，计算 $b^4f\left(\frac{a}{b}\right)$ 和 $bg\left(\frac{a}{b}\right)$ ，检查它们是否在素数基 $S$ 上平滑。
调整参数：通过调整 $A$ 、 $B$ 以及多项式的系数，寻找使得平滑点对 $(a, b)$ 的总数 $CO U NT$ 最大化的情况，从而找到最优的多项式。
观察和分析：分析 $s k e w$ 和 $c_4$ 的选取对 $CO U NT$ 的影响。

解决

1. 构造满足条件的多项式 $g (x)$ 和 $f (x)$

首先让我们设置数论问题中的基本参数，并筛选出小于 $10^5$ 的特定类型（4k+1型）的所有素数。

下一步是构造满足条件的多项式 $g (x)$ 和 $f (x)$ 。

构造两个多项式。根据问题，多项式 $g (x)$ 和 $f (x)$ 的形式分别是：
- 线性多项式
  $g (x) = p x - m$
- 四次多项式
  $f(x) = a_4x^4 + a_3x^3 + a_2x^2 + a_1x + a_0$
自行选择一个 $a_4$ ，这个是四次多项式 $f (x)$ 的最高次项系数。小于N ^ (1/5)就行，最好小点，不然怕后面跑不动（这里我选择的是1）。
生成特定素数 $p$ 。 $p$ 是几个4k+1型小素数的乘积。
根据前面 $a_4$ 的选择，满足条件的小素数 $q$ 有变化，需要满足下面方程有解： $a_4 x^4 \equiv n \pmod{q}$
最后打印满足条件的素数 $q$ ，其乘积形成 $m - 1$ 。注意，3到4个 $q$ 相乘得到 $m - 1$ ， $m - 1$ 大概7/8/9位数就行。

实现+代码优化

在这里插入图片描述

2.计算m

接下来计算 $m$ 。这个过程的本质是，求解同余式方程 $a_4 * x^4 ≡ N\ mod\ p$ 并由此构建 m 的值。 $m$ 分为两部分：

第一部分 $m_0$ ：
- 根据 Kleinjung 算法的要求，先计算 $N/a_4)^{1/4}$ ，接近于 $m$ 的理论值。
- 找到最接近此值且能被 $p$ 整除的数作为 $m_0$ 。
第二部分：满足同余方程解的部分。
- 对于组成 $p$ 的每个素数 $p_i$ ，使用之前从同余方程解集中挑选的解，这些解是为了确保 $m$ 满足特定的同余条件 $a_4 \cdot x^4 \equiv N \pmod{p_i}$ 。
- 将这些解相加得到第二部分的值。
计算 $m$ ：
- 将第一部分和第二部分的值相加得到最终的 $m$ 。

构造多项式 $g (x)$

这一步骤是为了构造出多项式 $g (x) = p x - m$ 。
其中， $p$ 是选定的素数乘积， $m$ 是通过上述方法计算得到的，确保多项式 $g (x)$ 满足特定的数学和同余条件。

得到解集

我们首先可以构造出多项式 $g (x) = p x - m$ ，其中 $p$ 是选定素数的乘积，而 $m$ 是通过以上描述的方法计算得到的。

代码逻辑

定义变量：设置 n、p（选定的素数集合）、a_4。
计算 $P$ ： $P$ 是选定素数的乘积。
解集计算：
- 对每个素数 $p_i$ ，求解同余方程 $a_4 \cdot x^4 \equiv N \pmod{p_i}$ 。
- 生成每个 $p_i$ 的解集。

在这里插入图片描述

在选择解集中的解时，不同的选择会影响后续多项式低次项系数的确定，特别是 $a_3$ 的大小。可以尝试不同的搭配，以使后面的系数尽可能小。

求解m

代码逻辑

定义变量：设置 n、p（素数的乘积）、a_4。
计算 $m_0$ ：基于 $N/a_4)^{1/4}$ 计算 $m_0$ 。
确定 $x_{solutions}$ ：这些选择的解是，从上一步中每个数组里面挑一个。
最终计算 $m$ ：将 $m_0$ 和 $x_solutions$ 的和计算出 $m$ 的最终值。

在这里插入图片描述

3. 计算多项式系数 $a_3$ , $a_2$ , $a_1$ 和 $a_0$ ，生成多项式

确定完a_4，p，m后，生成并验证多项式。

在这一部分，我们将集中于计算多项式 $f(x) = a_4x^4 + a_3x^3 + a_2x^2 + a_1x + a_0$ 的系数，并验证所得到的多项式是否正确。

构造多项式 $f (x)$

以上步骤允许我们计算出多项式 $f (x)$ 的所有系数，这个多项式将满足题目中所提出的模 $n$ 条件。

代码实现

关键逻辑步骤

定义变量：设置 n、p、m 以及 a_4 的值。
计算中间变量：为了简化系数的计算，首先计算出若干中间变量，如 $p^2$ 、 $p^3$ 、 $p^4$ 、 $m^2$ 、 $m^3$ 、 $m^4$ 。
系数的计算：
- 使用模运算和模逆函数（modular inverse）来逐步计算 $a_3$ 、 $a_2$ 、 $a_1$ 和 $a_0$ 。

在 Python 中，可以通过使用 pow 函数来计算模逆，其语法为 pow(a, -1, mod)，其中 a 是要求逆的数，mod 是模数。

每个系数的计算都基于前一步的结果，以及对应的中间变量。

计算 a_3：通过模逆和模运算计算 $a_3$ 。
计算 a_2：进一步利用前面的计算结果和模运算计算 $a_2$ 。
计算 a_1：同样基于之前的结果，计算 $a_1$ 。
计算 a_0：最后计算 $a_0$ 。
验证：通过计算 $a_4m^4 + a_3m^3p + a_2m^2p^2 + a_1mp^3 + a_0p^4$ 并与 $n$ 对比来验证结果。

验证结果：计算多项式 $f (x)$ 在 $x = m$ 时的值，并与原始的 $n$ 进行对比，以验证多项式的正确性。

在这里插入图片描述

注意验证检查时重点看一下最后几位数，我前面输入有问题时，最后5位数字对不上，说明整数分解错误。

Calculated: 1234268228312430759578090015472355712114804731217710966738223, Original: 1234268228312430759578090015472355712114804731217710966738223
p: 483089, m: 1054028581983230, a_4: 1, a_3: -165583, a_2: 361264483003044, a_1: 69722481128351, a_0: -700667493086667

如果报错：`ValueError: base is not invertible for the given modulus`

在尝试计算 m 的模逆时出现了问题，报错ValueError: base is not invertible for the given modulus

原因： m 和 p 不互质，即它们有共同的因子。在这种情况下，模逆并不存在。

因此，为了解决这个问题，我们需要确保 m 和 p 是互质的。
如果它们不是互质的，可能需要重新选择解集，检查 m 的值或 p 的值是否正确。

4. 计算 COUNT 并选择最优的 A/B

在这一部分，我们将专注于选择最优的 $A / B$ 比例并计算相应的 $CO U NT$ 。 $CO U NT$ 是满足特定条件的点对 $(a, b)$ 的数量，其中 $\in [-A,A]$ ， $\in [1, B]$ 。这一计算涉及到，验证两个表达式是否可以由小于 100000 的素数完全分解。

但请注意，由于代码涉及大量的质因数分解，因此计算复杂度很高，尤其是在较大数值范围内。

代码实现

在 Python 中，我们可以使用 sympy 库来获取一个数的质因数。

关键步骤

初始化参数：设置 $A$ 、 $B$ 、 $p$ 、 $m$ 以及多项式 $f (x)$ 的系数。
生成素数列表：创建小于 100000 的素数列表。
定义分解函数：can_be_fully_decomposed_by_small_primes 函数检查一个数是否可以由小于 100000 的素数完全分解。
计算循环：
- 遍历 $(a, b)$ 对，并计算 $b^4f\left(\frac{a}{b}\right)$ 和 $bg\left(\frac{a}{b}\right)$ 。
- 检查这两个值是否都能由小于 100000 的素数完全分解。
- 如果可以，增加 $CO U NT$ 。