一 图像分类简介
(1)分类目标:给定一张图片,识别图像中的物体是什么
图一:分类图示
(2)机器学习过程
收集数据定义模型 训练预测
局限:
机器学习算法善于处理低维、分布相对简单的数据。
二 传统图像处理方法
方向梯度直方图
(Histogram of Oriented Gradients)
在局部区域统计像素梯度的方向的分布,将图像映射成一
个相对低维的特征向量,同时保留足够识别物体的信息。
不足之处:受限于人类的智慧,手工设计特征更多局限在像 素层面的计算,丢失信息过多,在视觉任务上的
性能达到瓶颈。
三 深度学习简介
深度学习分为有监督学习、无监督学习、半监督学习
深度学习分为有监督学习、无监督学习、半监督学习
深度学习模型训练需要数据集、定义损失函数、定义优化器
四 基于深度学习的图像处理
(1)卷积神经网络发展
a.AlexNet
•
第一个成功实现大规模图像的模型,在 ImageNet 数据集上达到 ~85% 的 top-5 准确率
•
5 个卷积层,3 个全连接层,共有 60M 个可学习参数
•
使用 ReLU 激活函数,大幅提高收敛速度
• 实现并开源了 cuda-convnet ,在 GPU 上训练大规模神经网络在工程上成为可能
图二:ALexNet网络结构
b.VGG-19:ImageNet Top-5 准确率:92.7%
图三 VGG网络
c.resnet网络
为解决模型层数增加到一定程度后,分类正确率不增反降而提出深度残差网络。
图四 resnet网络
(2)神经结构搜索
基本思路
:借助强化学习等方法搜索表现最佳的网络
代表工作
:NASNet (2017)、MnasNet (2018)、EfficientNet (2019) 、RegNet (2020) 等
(3)transformer结构
图五 vision transformer