图形处理的一般流程
1.图片数据获取
2.图片数据清洗
----初步了解数据,筛选掉不合适的图片
3.图片数据标注
4.图片数据预处理data preprocessing。
----标准化 standardlization
一 中心化 = 去均值 mean normallization
一 将各个维度中心化到0
一 目的是加快收敛速度,在某些激活函数上表现更好
一 归一化 = 除以标准差
一 将各个维度的方差标准化处于[-1,1]之间
一 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域
5.图片数据准备data preparation(训练+测试阶段)
----划分训练集,验证集,以及测试集
6.图片数据增强data augjmentation(训练阶段 )
----CV常见的数据增强
· 随机旋转
· 随机水平或者重直翻转
· 缩放
· 剪裁
· 平移
· 调整亮度、对比度、饱和度、色差等等
· 注入噪声
· 基于生成对抗网络GAN做数搪增强AutoAugment等
一.数据集的获取
1.1Kaggel
1.2百度的AI Studio
这个是我平时用的比较多的一个数据集的网站,因为配合百度自己的飞浆paddle使用的话比较方便。
1.3天池
1.4科大讯飞
1.5coco
这个网站需要科学上网才能进入。
二.自定义的数据集
在cv的项目中,大部分情况下,你要做的目标可能在网上找不到适合的数据集,这时候你就需要自己制作数据集。
2.1 常见的标注工具
labelme和labelimg的区别:labelme可以将物体的轮廓标注出来,常用于分割,数据输出为.json。labelimg是一种矩形标注工具,常用于目标识别和目标检测,其标记数据输出为.xml和txt
使用labelimg的标注
使用labelme来进行标注
三.图片数据预处理
3.1中心化
中心化就是零均值化,对于每一个元素减去本图像的平均值即可。中心化本质上是将所有的像素值在坐标轴上进行了一次平移。
E(X-E(X))=0
对于预测函数,我们常使用的激活函数,比如sigmoid,relu,tanh,他们的任意一点的导数均大于零。
如果xi均为正数或负数,则进行迭代的话,我们会发现只会朝着一个方向运动,可能会到达不了最优点。
3.2 标准化
标准化为减均值除以标准差,这样出来的分布符合标准正态分布
如果样本的尺度不一致,通过如此的方式可以得到一致的输入数据。
如果x2属性的数据值很大,x1,x3的数据值很小,那么w2的权重相对于整个函数来说较大,只要w2改变轻微的值都会引起最后结果的巨大变化,不利于最后的收敛。
四.数据增强
随着神经网络的加深,需要学习的参数也会随之增加,这样就会更容易导致过拟合,当数据集较小的时候,过多的参数会拟合数据集的所有特点,而非数据之间的共性。那什么是过拟合呢,之前的博客有提到,指的就是神经网络可以高度拟合训练数据的分布情况,但是对于测试数据来说准确率很低,缺乏泛化能力。
因此在这种情况下,为了防止过拟合现象,数据增强应运而生。当然除了数据增强,还有正则项/dropout等方式可以防止过拟合。那接下来讨论下常见的数据增强方法。
1)随机旋转
随机旋转一般情况下是对输入图像随机旋转[0,360)
2)随机裁剪
随机裁剪是对输入图像随机切割掉一部分
3)色彩抖动
色彩抖动指的是在颜色空间如RGB中,每个通道随机抖动一定的程度。在实际的使用中,该方法不常用,在很多场景下反而会使实验结果变差
4)高斯噪声
是指在图像中随机加入少量的噪声。该方法对防止过拟合比较有效,这会让神经网络不能拟合输入图像的所有特征
5)水平翻转
6)竖直翻转
因为很多深度学习的模型复杂度太高了,且在数据量少的情况下,比较容易造成过拟合(通俗来说就是训练的这个模型它太沉浸在这个训练样本当中的一些特质上面了),表现为的这个模型呢受到了很多无关因素的影响。 所得出的结果就是在没有看到过的样本上对它做出预测呢就表现的不太好。
这里给了一段实例代码,调用的是paddle的框架
以下是对图片的预处理
import paddle
import paddlex as pdx
import numpy as np
import paddle.nn as nn
import paddle.nn.functional as F
import PIL.Image as Image
import cv2
import os
import matplotlib.pyplot as plt # plt 用于显示图片
from random import shuffle
from paddlex.det import transforms as T
from PIL import Image, ImageFilter, ImageEnhance
path='3.jpg'
img = Image.open(path)
plt.imshow(img) #根据数组绘制图像
plt.show() #显示图像
# 灰度图
img = np.array(Image.open(path).convert('L'), 'f')
plt.imshow(img,cmap="gray") #根据数组绘制图像
plt.show() #显示图像
#小Tips:jupyter notebook中plt显示灰度图异常,需要使用plt.imshow(gray,cmap="gray")方法正常显示灰度图。
运行结果
#原图
img = cv2.imread(path)
plt.subplot(221)
plt.imshow(img,cmap="gray")
# matplotlib 按照RGB顺序展示原图
plt.imshow(cv2.cvtColor(img,cv2.COLOR_BGR2RGB))
plt.subplot(222)
# cv2默认的GBR显示图
plt.imshow(img)
plt.subplot(223)
# 32*32的缩略图
plt.imshow(cv2.resize(img, (32, 32)))
运行结果
#图像处理示例 目标视野里比较多重叠,或者有点模糊的适用
path='dataset/MaskCOCOData/JPEGImages/maksssksksss443.png'
img = Image.open(path)
plt.imshow(img)
plt.show()
#锐化
img = img.filter(ImageFilter.SHARPEN)
img = img.filter(ImageFilter.SHARPEN)
plt.imshow(img)
plt.show()
#亮度变换
bright_enhancer = ImageEnhance.Brightness(img) # 传入调整系数亮度
img = bright_enhancer.enhance(1.6)
plt.imshow(img)
plt.show()
#提高对比度
contrast_enhancer = ImageEnhance.Contrast(img) # 传入调整系数对比度
img = contrast_enhancer.enhance(1.9)
plt.imshow(img)
plt.show()
运行结果
这里是对数据的增强
def preprocess(dataType="train"):
if dataType == "train":
transform = T.Compose([
T.MixupImage(mixup_epoch=10), #对图像进行mixup操作,模型训练时的数据增强操作,目前仅YOLOv3模型支持该transform
# T.RandomExpand(), #随机扩张图像
# T.RandomDistort(brightness_range=1.2, brightness_prob=0.3), #以一定的概率对图像进行随机像素内容变换
# T.RandomCrop(), #随机裁剪图像
# T.ResizeByShort(), #根据图像的短边调整图像大小
T.Resize(target_size=608, interp='RANDOM'), #调整图像大小,[’NEAREST’, ‘LINEAR’, ‘CUBIC’, ‘AREA’, ‘LANCZOS4’, ‘RANDOM’]
# T.RandomHorizontalFlip(), #以一定的概率对图像进行随机水平翻转
T.Normalize() #对图像进行标准化
])
return transform
else:
transform = T.Compose([
T.Resize(target_size=608, interp='CUBIC'),
T.Normalize()
])
return transform