torch.mul() 、 torch.mm() 及torch.matmul()的区别-CSDN博客

本文链接：https://blog.csdn.net/weixin_44443160/article/details/118553309

1、torch.mul(a, b)是矩阵a和b对应位相乘，a和b的维度必须相等，比如a的维度是(1, 2)，b的维度是(1, 2)，返回的仍是(1, 2)的矩阵。
在这里插入图片描述

2、torch.mm(a, b)是矩阵a和b矩阵相乘，比如a的维度是(1, 2)，b的维度是(2, 3)，返回的就是(1, 3)的矩阵。限定二维，且不支持广播。
在这里插入图片描述

上图错误在于，高维矩阵（二维以上）不能使用mm，应使用matmul。三维时，可以使用bmm。如下图所示：

3、 torch,matmul(a,b)，操作取决于张量的维度。
a. 如果两个张量都是一维的，则返回点积（标量）。
在这里插入图片描述

b. 如果两个参数都是二维的，则返回矩阵积。
在这里插入图片描述

c. 如果第一个参数是一维的，第二个参数是二维的，那么为了矩阵相乘，在其维数前面加上1。在矩阵相乘之后，前面的维度被移除。
在这里插入图片描述
d. 如果第一个参数是二维的，第二个参数是一维的，则返回矩阵向量积。

附上矩阵向量积的原理：左行右列

e. 如果两个参数都至少是一维的，并且至少有一个参数是N维的（其中N>2），则返回一个成批矩阵乘法。如果第一个参数是一维的，则为了成批矩阵相乘的目的，在其维数前面加一个1，然后将其删除。如果第二个参数是一维的，则为了成批矩阵的倍数，在其维数后附加一个1，并在其后删除。非矩阵（即批处理）维度是广播的（因此必须是可广播的）。例如，如果输入是（j×1×n×n）（j×1×n×n）张量，另一个是（k×n×n）（k×n×n）张量，则输出将是（j×k×n×n）（j×k×n×n）张量。
注意，在确定输入是否可广播时，广播逻辑只查看批处理维度，而不查看矩阵维度。例如，如果输入是（j×1×n×m）（j×1×n×m）张量，而另一个是（k×m×p）（k×m×p）张量，则即使最后两个维度（即矩阵维度）不同，这些输入也可用于广播。out将是（j×k×n×p）（j×k×n×p）张量。
这个我也没看太懂，附上官方文档，以后需要的时候再说吧！
在这里插入图片描述