下面只是方便理解,在神经网络的实现中,假定输入
X
X
,每一行是一个样本,即形状可以表示为
n×d1
n
×
d
1
, 其经过线性层得到
Y
Y
,其每一行是一个样本,则形状可以表示为
n×d2
n
×
d
2
,则用公式可以表示为:
Y=X∗W
Y
=
X
∗
W
形状为:
n×d2=n×d1∗d1×d2
n
×
d
2
=
n
×
d
1
∗
d
1
×
d
2
理解反向传播的矢量化: