本文章记录一个图像分类任务和一些训练策略。
涉及到数据如何预处理和模型的搭建,怎么保存怎么测试怎么输出,使用卷积神经网络去做
模块torchvision中的transforms函数用来进行数据增强–也可在数据量较少的情况下使用(本项目源码中大概6000个测试集),而引入的models包即使用现成的模型(例如CV中比较核心的模型reshet),而引入的datasets将数据和标签读取出来
1、数据预处理
接下来解释预处理的各个步骤以及含义:
Compose按顺序组合每一步操作,在预处理中做的第一件事是使用Resize(h,w)将图像转变为相同的尺寸大小,但可能会丢失信息,且h和w的值会显著影响最终结果,要通过某种策略选好,使用卷积时值大相对于值小来说卷积的地方也就越多,计算越慢,卷积的层数越大也就越慢
数据增强,可用于数据量不够,通过平移、旋转等操作来对有限的数据加大数据集的数量
数据增强操作有:
当中一个常见操作RandomRotation(x),做一个随机的旋转,x代表旋转的角度-x~x之间
CenterCrop(x)裁剪,将图片裁剪为xx尺寸大小,增加数据的多样性,之后实际使用的图片尺寸大小就变为xx的了
RandomHorizontalFlip(p=x),随机水平翻转
RandomVerticalFlip(p=x),随机垂直翻转,这里的x代表执行该翻转的概率
ColorJitter(brightnees=,contrast=,saturation=,hue=),各参数分别为亮度、对比度、饱和度和色相,用的少
RandomGrayscale(p=),p为概率转换成灰度率,3通道(RGB)就是三基色,也不重要
ToTensor(),把数据转化为tensor数据结构,Tensor(张量)是机器学习中的一个核心概念,它是神经网络等复杂计算模型的基础数据结构,是一种多维数组,可以用于描述和处理复杂的数学结构和模式
Normalize([r,g,b],,,…),均值,标准差,做一个标准化操作,这里的均值标准差一般在大数据集中通过imagene来获得
训练集要做数据增强,验证集可不做,标准化中参数也 要一样
2、数据集与模型选择
先指定batch_size的大小,选择要合适
使用称为ImageFolder方法,通过现成的文件夹取数据,该取数据的方法不是最佳方法,更好的方法为dataloader,先定义好image_datasets,接下来定义dataloaders,而加下来的dataset_sizes用于计算数据集的总数,在后面用于计算准确率,最终模型选择比较经典的现成的模型resnet,若要选择别人论文中通过实验做出来的其他网络结构或模型对于现在短期学习来说不佳,等现阶段结束之后再去研究。
在该项目中不仅网络结构用人家的,模型用人家的,模型权重、参数也用人家的,在迁移学习中就不要随机初始化了,也即人家已经帮你训练好了
一个词“冻住”,在数据量少的时候,即把前面所有层基本都不变动,而只对最后一层输出层进行更新改变,数据量多的时候就冻住更少的层