这是LeNet首次提出的论文
《Gradient-Based Learning Appliedto Document Recognition》
https://hal.science/hal-03926082/document
这是一篇1998年发表的论文,而且篇幅非常长,本文主要对LeNet
1、简介
最早是用来做手写数字识别的应用,希望就是能做到,你把信往里面放就能把邮编扫出来,然后根据扫描结果放到不同的地方由不一样的车运出去。
此外还有check(支票)的识别,丢到自动取款机里面识别出来。
2、MNIST数据集
- 50000个训练数据
- 10000个测试数据
- 图像大小28*28,单通道,黑白
- 10类(数字0-9)
做机器学习,很可能这就是第一个数据集了,属于Hello World级别的项目了,在当时就算一个大数据了。LeNet做出来的效果比一般的什么SVM要好。
3、LeNet网络结构
先给出一个简单的图,是从当年的论文中拿到的图
- 输入的是一个32*32的图像,加了一个padding在里面
- 首先放入一个5*5的卷积层里面,输出通道是6,输出维度为(28,28,6),然后这套东西的输出就叫Fearture map
- 然后进入一个pooling层,从(28,28,6)变成了(14,14,6),通道数没有变
- 接下来又是一个卷积层,仍然是一个5*5的,输出维度为(10,10,16),通道数会增加
- 再进入一个pooling层,从(10,10,16)变成了(5,5,16),高宽减半,通道数不变
- 最后拉成一个向量,进入到全连接层
- 第一个全连接层是120
- 第二层是64
- 最后一个是高斯层,我们现在是不用这个的,其实也是一个全连接层,相当于是softmax
4、总结
- LeNet是早期成功的神经网络
- 先使用卷积层来学习图片空间信息
- 然后使用全连接层来转换到类别空间
LeNet是早期成功的神经网络,也是奠定了神经网络确实在图片上应用挺好的,先用卷积层来学习图片的空间信息,通过池化层来降低图片敏感度,最后使用全连接层来转换到类别的空间。基本上两个卷积层加一个MLP,得到一个图片到类别的映射,这个思想在多年都是流行的,当然现在是完全不一样了。这也影响了一个著名的AlexNet深度神经网络。