先说过程:
①起初是想使用cifar-10数据集进行训练的,由于cifar数据集中的图片size较大,我跑在自己的笔记本电脑上,如果完全按照官方给出的网络结构图来训练时会出现OOM(out of memory)的问题(不排除是当时我代码不够规范造成的)。所以对channel数进行了微调。
②一开始用原生tensorflow编写,在参考网上resnet代码时也是原生tensorflow方法使用得比较多。但是在我自己写这份代码时发现原生tensorflow比较繁杂,不便于debug,于是考虑使用基于原生tensorflow的框架。由于slim框架没找到官方文档,所以改用了keras。keras中文官方文档看这里。用了框架之后代码就变得十分简洁易用啦。
对resnet的理解,我认为简单来说就是将原输入X与经卷积之后的F(X)相加的结果y与真值y_进行比较,从而使网络不必学习如何拟合整个y_,而只需要对残差y_ - X = F(x)这部分进行学习即可。这种结构的优点是作用效果与传统网络相同,但是简化了模型的学习。
本文代码所对应的模型结构:
layer_name | output_size | 9-layer |
conv1 | 28x28x16 | 3x3,16,stride = 1 |
conv2 | 14x14x16 | 3x3,16 x2 3x3,16 |
conv3 | 7x7x32 | 3x3,32 x2 3x3,32 |
1x1 | average pool,softmax |
模型构建参考:
1.图示中的18-layer
2.以及下图的block结构
接下来是代码流程
1.载入数据
import kerasfrom keras.datasets import mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
# 数据集会默认下载到C:\Users\xxx\.keras\datasets 中