为什么快
已知矩阵乘法较正常乘法而言,在步骤上并没有碾压性的先天优势
在起初,它的创造目的是给线性方程式提供简写形式
但矩阵乘法自带局部缓存的性质,
与正常乘法的跳跃计算而言,
显然更胜一筹
换言之,矩阵乘法更适合计算机运行
(当然,借由它与线性方程式的联系,可以理解它的乘法规则)
怎么更快
进行矩阵乘法的计算时,常规代码实现如下
for(ri i=1; i<=n; ++i)
for(ri j=1; j<=n; ++j)
for(ri k=1; k<=n; ++k)
z.a[i][j]=x.a[i][k]*y.a[k][j];
针对矩阵的局部缓存,有如下优化代码
for(ri k=1; k<=n; ++k)
for(ri i=1; i<=n; ++i) {
int r=x.a[i][k];
for(ri j=1; j<=n; ++j)
z.a[i][j]=r*y.a[k][j]; }
k的先循环以减少数据跳跃,存储r以减少查询,进而减少时间
inline void block(float* a,float* b,float* c,int n) {
for(ri j=1; j<=n; j+=M)
for(ri i=1; i<=n; i+=M)
for(ri k=1; k<=n; k+=M)
matrix_multply(a+i*n+k,b+k*n+j,c+i*n+j,M); }
另外可以分块,针对行列较大的矩阵,效果显著
最后,剪枝
关于矩阵乘法的优化,分块与局部的优化,在原理上似乎并无冲突,或许可以合并使用