1.训练样本
数据增强
- 方法:通过对样本图像平移、旋转或镜像翻转,增加样本数量;
- 优点:使有限的数据得到最大程度的有效利用。
使用大规模数据集
- ImageNet:基于WorldNet,按层级图像分类,动物植物食物等,末梢节点包含多张对应图像;
- Place:在SVNDatabase基础上的扩展,包括多种场景,室内、室外、交通工具、建筑物等。
其它
- 设置图像中间区域为感兴趣区域,可以防止变换后的样本偏离图像区域;
- 对样本会产生形状变化的情况,如手写字符识别,先变形再数据增强,可以使用弹性变换算法,包括双线性插值或双三次插值等插值法。
2.预处理
原因:当样本类别内差异较大时,为了减少样本差异,会进行预处理。
方法:均值减法、归一化、白化。
均值减法
- 大规模的物体识别预处理的方式;
- eg:图像识别中,训练样本-均值图像=输入数据(差分图像),经过处理后,数据平均值会变为0,图像整体亮度变化可以得到抑制。
归一化
- 为样本的均值和方差添加约束的一