model = nn.Linear(in_features,out_features)
x = torch.randn(72,512)
model(x)
期中Linear的weight和bias如何默认参数初始化的:
weight:
在以下范围内均匀分布
(- 1 / sqrt(in_features) , 1 / sqrt(in_features) )
形状:size(out_features,in_features)
bias:
网络上写的是默认全为0,但是实际测试不是,结果如下
形状为[out_features]
model(x) = x @ weight.T + bias
运算要求 :
x的最后一个维度要和,in_features相等才能做矩阵乘法
运算过程:
如果x为大于等于三维,会有一个先降维再升维的过程