卷积神经网络[CNN]笔记（五）—— 参数共享机制

最新推荐文章于 2025-01-23 11:45:48 发布

zeeq_

最新推荐文章于 2025-01-23 11:45:48 发布

阅读量6k

点赞数 6

分类专栏： CS231n课程笔记文章标签：卷积神经网络深度学习

原文链接：https://cs231n.github.io/convolutional-networks/

版权

CS231n课程笔记专栏收录该内容

27 篇文章

订阅专栏

这是卷积神经网络笔记第五篇，完整的笔记目录可以点击这里查看。

在卷积神经网络中，卷积层采用参数共享机制控制参数个数。举个例子，假设输入图像大小为55×55×96，卷积核大小为11×11×3。那么，对于神经网络的全连接算法，相当于有55×55×96=290400个神经元的输入，每个神经元有11×11×3=363个权值和1个偏差。加起来，仅第一层上的参数就达到290400×364=105705600。显然，这个数字非常庞大。
事实证明，我们可以通过做出一个合理的假设来显著减少参数的数量：如果一个特征在某个空间位置(x,y)上的计算是有用的，那么在另一个位置(x2,y2)上的计算也是有用的。换言之，将单个二维图像在深度上进行切片（例如，大小为[55×55×96]的图像有96个深度切片，每个大小为[55x55]），我们约束每个深度切片中的神经元使用相同的权重和偏差。使用此参数共享方案，上述例子中的第一个Conv层现在只有96个唯一的权重集（每个深度切片一个），总共96×11×11×3=34848个唯一权重，或34944个参数（+96个偏差）。或者，每个深度切片中的所有55×55个神经元现在将使用相同的参数。实际上，在反向传播过程中，层中的每个神经元都会计算其权重的梯度，但是这些梯度将在每个深度切片上相加，并且只更新每个切片的一组权重。
需要注意的是，如果一个深度切片中的所有神经元都使用相同的权重向量，那么Conv层在每个深度切片中的前向传递可以计算为神经元权重与输入的卷积（因此得名：卷积层）。这就是为什么通常将权重集称为与输入卷积的过滤器（或卷积核）的原因。
为了使上面的讨论更具体，让我们用代码和具体的例子来表达相同的想法。假设输入的图像是一个numpy数组X。那么：

位置(x,y)处的深度列（或fibre）可以表示为X[x,y,:]。
深度切片，或者说深度为d层的数据可以表示为X[:,:,d]。

假设输入数据X大小为 (11,11,4)。进一步假设我们不使用零填充（P=0），过滤器大小为F=5，步长为S=2。因此，输出体积的空间大小（11-5）/2+1=4，即宽度和高度为4的输出。然后，输出中的激活映射（称为V）将如下所示（本例中仅计算了一些元素）：

V[0,0,0] = np.sum(X[:5,:5,:] * W0) + b0
V[1,0,0] = np.sum(X[2:7,:5,:] * W0) + b0
V[2,0,0] = np.sum(X[4:9,:5,:] * W0) + b0
V[3,0,0] = np.sum(X[6:11,:5,:] * W0) + b0

记住，在numpy中，上面的操作*表示数组之间的单个元素之间的相乘。还要注意，权重向量W0是该神经元的权重向量，b0是偏差。这里，W0的大小为(5,5,4)，因为滤波器大小是5并且输入数据的深度是4。注意，在每一点上，我们都在计算点积，就像在普通神经网络中的计算一样。此外，我们看到我们使用相同的权重和偏差（由于参数共享），其中沿宽度的尺寸以2的步长增加。要在输出中构建第二个激活映射（在第二个深度切片上），有：

V[0,0,1] = np.sum(X[:5,:5,:] * W1) + b1
V[1,0,1] = np.sum(X[2:7,:5,:] * W1) + b1
V[2,0,1] = np.sum(X[4:9,:5,:] * W1) + b1
V[3,0,1] = np.sum(X[6:11,:5,:] * W1) + b1
V[0,1,1] = np.sum(X[:5,2:7,:] * W1) + b1 (example of going along y)
V[2,3,1] = np.sum(X[4:9,6:11,:] * W1) + b1 (or along both)

在这里，我们看到我们正在对第二个深度维度进行计算，并且现在使用了一组不同的参数（W1，b1）。在上面的示例中，为了简洁起见，我们省略了Conv层为填充输出数组V的其他部分而执行的一些其他操作。此外，请记住，这些激活映射通常通过诸如ReLU之类的激活函数对每个值进行过滤，但这里没有显示。

*本博客翻译总结自CS231n课程作业网站，该网站需要翻墙才能访问。