【TP策略】matmul的反向传播公式

友人小A

已于 2024-01-31 10:56:25 修改

阅读量395

点赞数 5

分类专栏：分布式深度学习文章标签：分布式神经网络

于 2024-01-31 10:52:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zmj1582188592/article/details/135948466

版权

深度学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

[Pytorch] 前向传播和反向传播示例_反向传播和前向传播的网络程序-CSDN博客

→ Y(i,j) = X(i,0)*W(0, j) + X(i, 1)*W(1,j) + X(i,2) * W(2,j) + X(i, 3)*W(3,j)

x=0,1,2,3,4,5,6,7,8,9,10,11,12； j=0,1, 2

如：

Y(0,0) = X(0,0)*W(0, 0) + X(0, 1)*W(1,0) + X(0,2) * W(2,0) + X(0, 3)*W(3,0)

Y(1,2) = X(1,0)*W(0, 2) + X(1, 1)*W(1,2) + X(1,2) * W(2,2) + X(1, 3)*W(3,2)

→ loss = Lossfun(Y)

→ 损失函数backward得到matmul反向的输入grad = d loss /dY

→ W.grad = d loss / dW = dloss/dY * dY/dW = grad * dY/dW

→ 前向计算中若把W作为变量：Y(i,j) = X(i,0)*W(0, j) + X(i, 1)*W(1,j) + X(i,2) * W(2,j) + X(i, 3)*W(3,j), i=0,1,2,3,4,5,6,7,8,9,10,11,12

→ W(0,j)的梯度由 X(i,0) i=0,1,2,3,4,5,6,7,8,9,10,11,12共同组成，但是这12个数字没有直接的参与关系，而是分别对应Y(i,j)

→ Y(i, j) = X(i, 0) * W(0, j) + ....

所以在计算W(0,j)的梯度时，我们需要遍历 i （取值范围为 0 到 12），将 Y(i,j) 对 W(0,j) 的偏导数乘以 grad，再累加起来即可得到 W(0,j) 的梯度。

这样就是 W(0,j).grad = X(0,0) * grad(0,j) + X(1,0) * grad(1,j) + ... + X(12,0) * grad(12,j) = mma(Transpose(X), grad)

—————— 》因此W.grad要取完整的X列（转置后的行），和grad的列 ——》不管TP按照什么切分，X都能保持完整的列，因此不需要通信

→ X.grad = dloss/dX = dloss/dY * dY/dX = grad * dY/dX

→ 前向计算中若把X作为变量：Y(i,j) = X(i,0)*W(0, j) + X(i, 1)*W(1,j) + X(i,2) * W(2,j) + X(i, 3)*W(3,j), j=0,1,2

X(i,0).grad = grad(i, 0) * W(0,0) + grad(i,1)*W(0,1) + grad(i,2)*W(0,2) = mma(grad, W)

—————— 》因此X.grad要取完整W行，和grad列 ——》若按照列切分，则需要all-gather回来

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【TP策略】matmul的反向传播公式

→ 前向计算中若把W作为变量：Y(i,j) = X(i,0)*W(0, j) + X(i, 1)*W(1,j) + X(i,2) * W(2,j) + X(i, 3)*W(3,j), i=0,1,2,3,4,5,6,7,8,9,10,11,12。→ 前向计算中若把X作为变量：Y(i,j) = X(i,0)*W(0, j) + X(i, 1)*W(1,j) + X(i,2) * W(2,j) + X(i, 3)*W(3,j), j=0,1,2。
复制链接

扫一扫

专栏目录

友人小A CSDN认证博客专家 CSDN认证企业博客

码龄8年

42: 原创

32万+: 周排名

5万+: 总排名

8万+: 访问

: 等级

830: 积分

96: 粉丝

131: 获赞

7: 评论

236: 收藏

私信

关注

热门文章

分类专栏

笔记 10篇
分布式 3篇
刷题 6篇
深度学习 6篇
C++ 3篇
Python 6篇
libtorch 1篇
Pytorch 4篇
TensorFlow 9篇
caffe 2篇
测试 1篇
问题记录 5篇

最新评论

Deepspeed Zero(DP)
锵域: zero3（pops+g+p）的图中为什么梯度没有分片？是图画错了吗
Transformer
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
[matplot]qt.qpa.plugin: Could not load the Qt platform plugin “xcb“ in ““ even though it was found.
浙理一枝花: 可以试一下装sudo apt-get install libxcb-cursor0，我成功解决
【vscode】SSH连接远程服务器Host/容器
CSDN-Ada助手: 非常感谢博主分享的这篇关于SSH连接远程服务器和容器的教程，非常详细易懂，一定是花费了大量的时间和精力才写出来的。相信这篇文章对许多人来说都是非常有用的。下一篇博客可以考虑写一篇有关如何优化VSCode工作流程的主题，例如插件推荐、快捷键设置、自定义主题等。期待博主的下一篇精彩文章！
Ubuntu 系统 USB转串口
友人小A: 出现错误：Device /dev/ttyUSB0 is locked. 解决方式：通常是因为minicom上次使用时没有正常退出，系统自动在目录/var/lock中生成了lockfile而导致，只要进入/var/lock，删除lockfile，minicom又可以正常启动了。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。