原文:http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf
Gradient Based Learning Applied to Document Recognition
第7页倒数第3段。
首先看C1和input的卷积连接,C1中各个field的每个神经元连接了25个输入单元,这里有25个连接,一个feature map有28*28个神经元,就有28*28*25个连接,一共有6个C1 feature maps,这样有28*28*25*6=117600个卷积连接。
接下来还要加上bias,bias单元是加在输入层中的,所有C1神经元的计算都要加上这个bias,即都与这个bias单元连接,就是28*28*6=4704,加上117600=122304。
每个s2层的单元对应着两个参数,因为是sampling,所以s2层的单个feature map共用这两个参数,就有6*2=12个参数了。不过现在的pooling层是没有参数的。