计算机视觉 | 基础介绍(一)

图像分类

ImageNet 图像库(斯坦福计算机视觉实验室)
1400w+images 2w+ labels

ILSVRC(ImageNet Large Scale Visual Recognition Challenge 大规模视觉识别挑战赛)
AlexNet
ResNet(微软)
Inception-v3/v4(Google)


目标检测

  • two stage(物体识别、定位分为两个步骤;速度较慢,不能实时)
    RCNN 局部卷积神经网络
    RPN (Region Proposal Networks 候选区域生成网络)
    Fast R-CNN
    Faster R-CNN
  • one stage
    SSD
    YOLO
    YOLO v2

图像分割

mask RCNN

数据集
COCO
PASCAL VOC


经典网络

LeNet-5

LeCun et al., 1998, Gradient-based learning applied to document recognition
在这里插入图片描述

  • 针对灰度图像训练
  • 平均池化avg pooling,现在用最大池化max pooling更多一点
  • 当时不太使用padding和有效卷积valid convolutions
  • 随着网络越来越深,图像的高度和宽度都在缩小,信道数在增加
  • conv pool conv pool fc fc output
  • 由于当时计算机计算的限制,采用了复杂的计算方法,filter的信道数和图像的信道数相同…

AlexNet

Krizhevsky et al., 2012, ImageNet classification with deep convolutional neural networks
在这里插入图片描述

  • 原文是224* 224* 3,但是227* 227* 3更好
  • LeNet和AlexNet对比:
    • LeNet 6w+参数;AlexNet6000w+参数
    • AlexNet能够处理非常相似的包含大量隐藏单元或数据的基本构造模块
    • LeNet使用的是sigmoid/tanh激活函数;AlexNet用的ReLU
  • 当时GPU速度较慢,模型在两个GPU上训练,将层拆分到两个GPU上,使用某种方法让两个GPU进行交流

VGG-16

VGG-16

  • 一种只需要专注于构建卷积层的简单网络;16:包含16个卷积层和全连接层
  • 1.38亿+参数

ResNet

Residual block (He et al., 2015, Deep residual networks for image recognition)
在这里插入图片描述
ResNet

  • 普通网络 Plain network
    shortcut/ skip connections 跳远连接
    residual block 残差块
  • 普通网络在构建更深的网络时误差会减少后增加,ResNet可以避免这个问题,构建更深的网络

Inception

Szegedy et al., 2014, Going deeper with convolutions
代替人工来确定卷积层中的过滤器类型,或者确定是否需要创建卷积层或池化层
在这里插入图片描述
给网络添加这些参数的所有可能值,然后把输出连接起来,让网络自己学习它需要什么样的参数,采用哪些过滤器组合
在这里插入图片描述在这里插入图片描述
先压缩成一个小的网络,再扩大,减小了运算成本

  • bottleneck layer瓶颈层
  • 计算成本从1.2亿降到12.4million
    在这里插入图片描述
    Inception模块 Inception网络

Overfeat

Sermanet et al., 2014, OverFeat: Integrated recognition localization and detection using convolutional networks

不需要把输入图片分割成四个子集分别执行前向传播,把它们作为一张图片输入给卷积网络进行计算即可,其中的公共区域可以共享很多计算
在这里插入图片描述
缺点:边界框的位置不够准确


YOLO

Redmon et al., 2015, You Only Look Once: Unified real-time object detection
在这里插入图片描述

  • 将图片分为几个部分,分别计算y
  • 物体的中心点在哪个框,该框的y1=1

非极大值抑制 Non-max suppression example
算法可能会对同一对象做出多次检测,非极大值抑制做的就是清理这些检测结果,使一个对象只检测一次
在这里插入图片描述
选中概率最大的矩形后,抑制去掉其他IoU值很高的矩形。
概率大的矩形会被高亮,其他的会变暗

Anchor Boxes
一个格子检测出多个对象
在这里插入图片描述
用anchor boxes表示不同类别的对象,用同一个y(3* 3* 16)表示(如图)
在这里插入图片描述


R-CNN

Girshik et. al, 2013, Rich feature hierarchies for accurate object detection and semantic segmentation

Region proposal 候选区域
不再滑动区域,在每个窗口都卷积,是选择部分窗口进行卷积操作(跑分类器算法)

  • 运行图像分割算法 segmentation algorithm,图像分成色块
  • 先找出2000+色块,在色块上放置边界框并跑分类器(比所有位置跑一遍快,减少卷积花费时间)
    在这里插入图片描述
    比较慢
Fast R-CNN

用卷积实现了滑动窗法,但是得到候选区域的聚类步骤仍然非常缓慢

Faster R-CNN

用卷积神经网络得到色块,而不是图像分割的方法

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
目标检测是计算机视觉中的一项重要任务,它旨在识别图像或视频中存在的特定对象并确定它们的位置。目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置。以人、车、自行车、狗和猫为例,目标检测可以判断某张给定图像中是否存在这些目标实例,并返回每个目标实例的空间位置和覆盖范围。目标检测是图像理解和计算机视觉的基石,它为解决更复杂、更高层次的视觉任务(如分割、场景理解、目标追踪、图像描述、事件检测和活动识别等)提供了基础。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [计算机视觉如何实现目标检测?](https://blog.csdn.net/gu1857035894/article/details/129335577)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [计算机视觉(十六):目标检测概述](https://blog.csdn.net/weixin_45707277/article/details/121216289)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值