图像数据的输入:
全连接网络FC输入数据是batch_size像素点总数,卷积神经网络CNN输入数据是四维矩阵,batch_sizechw。eg:64784/6412828(灰度图)。
卷积网络更适合处理图像 数据,因为像素点之间是有关系的。
torchvision包常用的datasets和transforms:1datasets:处理数据集,并且自身也内置了数据集,2transforms做数据预处理,数据转换、增强等。
卷积网络通常是配对执行的,因此往往将relu、pool等操作和conv一起按照网络执行顺序定义为一个sequential。
class CNN(nn.Module):
def __init__(self):
super(CNN, self).__init__()
self.conv1 = nn.Sequential( # 输入大小 (1, 28, 28)
nn.Conv2d(
in_channels=1, # 灰度图
out_channels=16, # 要得到几多少个特征图,也是卷积核的个数
kernel_size=5, # 卷积核大小
stride=1, # 步长
padding=2, # 如果希望卷积后大小跟原来一样,需要设置padding=(kernel_size-1)/2 if stride=1
), # 输出的特征图为 (16, 28, 28)
nn.ReLU(), # relu层
nn.MaxPool2d(kernel_size=2), # 进行池化操作(2x2 区域), 输出结果为: (16, 14, 14)
)
self.conv2 = nn.Sequential( # 下一个套餐的输入 (16, 14, 14)
nn.Conv2d(16, 32, 5, 1, 2), # 输出 (32, 14, 14)
nn.ReLU(), # relu层
nn.Conv2d(32, 32, 5, 1, 2),
nn.ReLU(),
nn.MaxPool2d(2), # 输出 (32, 7, 7)
)
self.conv3 = nn.Sequential( # 下一个套餐的输入 (16, 14, 14)
nn.Conv2d(32, 64, 5, 1, 2), # 输出 (32, 14, 14)
nn.ReLU(), # 输出 (32, 7, 7)
)
self.out = nn.Linear(64 * 7 * 7, 10) # 全连接层得到的结果
def forward(self, x):
x = self.conv1(x)
x = self.conv2(x)
x = self.conv3(x)
x = x.view(x.size(0), -1) # flatten操作,结果为:(batch_size, 32 * 7 * 7)
output = self.out(x)
return output
这里使用了2维卷积conv2d,因为图像就是针对一个小窗口,w*h就是2维的。3d视频数据,1d对结构化数据。
正常池化就把图片尺寸减半。kernel_size=2
x.view(x.size(0), -1) 最后得到一个矩阵,x.size(0)指的是x数据(batch_sizechw)的第一维即batchsize不变,-1是进行矩阵维度的自动计算。-1的值为:batch_sizechw/batch_size。
这里的flatten操作是因为只有2维矩阵才能进行全连接操作。