概述
一、图像分类
1. 概念
图像分类是计算机视觉中的一个基本任务,目的是将输入的图像自动划分到预定义的类别中。例如,给定一张图像,系统能够识别出这是一张狗、猫、汽车还是其他物体的图片。
2. 使用CNN进行分类
卷积神经网络(CNN)是图像分类任务中最常用的模型。CNN通过卷积层、池化层、全连接层等结构,能够自动提取图像中的特征并进行分类。
3. 经典CNN模型
- AlexNet:由Alex Krizhevsky等人于2012年提出,赢得了当年ImageNet图像分类竞赛的冠军,标志着深度学习在图像分类领域的崛起。
- VGGNet:由牛津大学计算机视觉组和Google DeepMind公司研究员共同研发,探索了卷积神经网络的深度与其性能之间的关系。
- ResNet(残差网络):由微软亚洲研究院的Kaiming He等人提出,通过引入残差块解决了深度神经网络中的梯度消失和表示瓶颈问题。
二、目标检测
1. 概念
目标检测不仅要识别图像中的物体类别,还要给出物体在图像中的具体位置(通常用矩形框表示)。
2. R-CNN系列
- R-CNN:区域卷积神经网络,它首先使用选择性搜索等方法生成一系列可能包含物体的候选区域,然后对每个候选区域使用CNN提取特征,最后通过SVM等分类器进行分类。
- Fast R-CNN:针对R-CNN速度慢的问题进行了优化,提出了ROI Pooling层,实现了端到端的训练。
- Faster R-CNN:在Fast R-CNN的基础上引入了RPN(区域提议网络),实现了候选区域的自动提取,进一步提高了速度和准确性。
3. 一阶段检测器
- YOLO(You Only Look Once):将目标检测视为回归问题,直接在单个网络中预测所有物体的位置和类别。YOLO速度快,但对小物体的检测效果可能不佳。
- SSD(Single