工作规划(1) 基于LU分解的千万阶稀疏矩阵求解器

最新推荐文章于 2024-08-06 23:03:21 发布

xin_200

最新推荐文章于 2024-08-06 23:03:21 发布

阅读量4.9k

点赞数

文章标签：工作算法网格多线程编程优化

本文链接：https://blog.csdn.net/xin_200/article/details/4179189

版权

以下是投给某个研究院的一份工作计划。在稀疏求解器上花了六、七年功夫，也是对这些年的一个小结吧。

目前，千万阶矩阵求解以迭代法（含多重网格法）为主。迭代法算法简单，易于实现。处理对称正定矩阵及某些特殊类型矩阵有较好的效果。但总体上很难做到通用，稳定。精度较低，效率上先天不足。直接法（基于LU分解）的精度高，通用性好。尽管直接法同样有很多困难，但这些困难是可以克服的；其潜力巨大，有望得到广泛的应用。

1 迭代法的不足

尤其对于非对称矩阵，以GMRES，BICG为代表的迭代法需要高质量的预处理器，而目前还没有通用而成熟的预处理算法，在理论上更是难以分析。以ILU为代表的预处理算法越来越复杂，代码长度，运行时间甚至超过迭代法本身，效果仍依赖于具体问题。

2直接法的优势

1）稳定，通用，精度高

基于恰当的主元技术及预处理技术，目前直接法的表现相当稳定，精度也比迭代法高很多。

2）CPU效率可高一个数量级

目前单颗CPU的峰值浮点性能已有超过100G，即每秒1000亿次运算。但只有为数不多的代码能实现这个峰值，其中就有BLAS-3。通过算法优化，稀疏LU分解的绝大部分运算可直接调用BLAS-3, 而迭代法一般只能调用BLAS-2。两者的CPU效率相差一个数量级。

3）更适合于反复求解的场合

稀疏矩阵通常需要反复求解，即矩阵不变，而右端项不断变化。例如非线性方程组求解，拟牛顿迭代以，有限元中的多种荷载等。直接法只需数值分解一次，然后针对不同的右端项回代。而回代的速度很快，一般远小于迭代法的时间。因此，当反复求解的次数较多，直接法所需的时间会更少。

3 直接法的难点及分析

目前，直接法难以推广的因素很多，主要如下：

1）算法复杂，要求很高的编程水平。目前主要的稀疏LU分解算法有multifrontal, frontal, supernodal等，都需要一定的图论与组合数学基础，主流求解器的核心代码都在万行以上。这些求解器都采用很多参数，针对具体问题如何取值也有一些难度。目前成熟的直接法求解器较少，有一些已商业化。总体上还有很多提高的空间。

2）需要大量内存

这个是限制直接法的主要瓶颈所在。就百万阶矩阵实测来看，需要10G左右内存，千万阶所需内存估计在100G以上。估计PC，工作站的内存要数年后才能达到这个数量级。因此需要外存模式，这将增加额外的时间，并使算法更加复杂。

3) 计算量巨大

千万阶稀疏LU分解的计算量可认为是k*1.0¹⁴。看上去很大，但仍是可以克服的。目前已有CPU浮点性能达到1.0¹¹次/秒，考虑并行效率，稀疏分解本身的效率，在多CPU上可达到1.0^12~1.0¹³次/秒。这样总的求解时间预期为数分钟到数个小时，还是可以接受的。