AlphaTensor：发现更快的矩阵乘法

山登绝顶我为峰 3(^v^)3

已于 2024-03-05 17:29:05 修改

阅读量1.1k

点赞数 6

分类专栏：机器学习文章标签：矩阵机器学习深度学习

于 2022-10-07 11:44:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44885334/article/details/127192609

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

参考文献：

Discovering faster matrix multiplication algorithms with reinforcement learning：https://doi.org/10.1038/s41586-022-05172-4

Tensor

矩阵 $\in \mathbb F^{n \times m}$ 和 $\in \mathbb F^{m \times p}$ ，矩阵乘积 $\mapsto C:=AB$ 是双线性的（bilinear），因此可以表示为 $3$ 维的张量（Tensor）：
$T_{n,m,p} = [t_{abc}] \in \{0,1\}^{nm,mp,np}$
这个 $T_{n,m,p}$ 可以指定读写位置。先把 $A, B, C$ 展开为一维向量 $A^{'}, B^{'}, C^{'}$ ，如果 $t_{abc}=1$ ，那么 $C'_c$ 的值的加和项中就有 $A'_a \cdot B'_b$

在这里插入图片描述

我们把 $T_{n,m,p}$ 做分解，得到 $\in \mathbb Z^{nm \times R},V \in \mathbb Z^{mp \times R},W \in \mathbb Z^{np \times R}$ ，使得
$T_{n,m,p} = \sum_{r=1}^R u^{(r)} \otimes v^{(r)} \otimes w^{(r)}$

其中的 $\otimes$ 是列向量外积（outer product）或者叫张量积（tensor product）

可以写出根据 $T_{n,m,p}$ 的分解 $U, V, W$ 控制的矩阵乘法：

在这里插入图片描述

如果分解后，列数 $R$ 越小，那么运算时的小矩阵乘法的数量就不大于 $R$ 。著名的 Strassen’s algorithm，它就是找到了张量 $T_{2,2,2}$ 的 $R = 7$ 的分解。

AlphaTensor

这篇文章利用 Neural network 搭建了一个模型 AlphaTensor，发现了一系列的对张量 $T_{n,m,p}$ 的更优分解：

在这里插入图片描述

具体的 $U, V, W$ 分解数据在文章附录，诸位可以自己去找。

另外，对于特殊的矩阵也有更优的算法。比如反对称阵（skew-symmetric matrix）和向量的乘法，仅需要 $(n - 1) (n + 2) /2$ 个乘法运算：

在这里插入图片描述

上述的张量分解，还可以被应用于任意的双线性运算上，比如：循环卷积（多项式乘法，DFT），AlphaTensor 找到了对 $n = 2, 4, 8$ 的加速。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。