计算机视觉(CV)概述

        最近在学习百度云智学苑的EasyDL课程时,发现这里对计算机视觉的简介挺清晰移动的,结合本人的一些理解,这里简述一下计算机视觉。
        计算机视觉是一门研究如何使机器"看"的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
        计算机视觉一般涉及到图像分类、物体检测、图像分割和视频分类。


1. 图像分类

        图像分类就是给定一个图像,正确给出该图像所属的类别。一般是监督学习,训练集和验证机比例为3:1或7:3

在这里插入图片描述
        下图为每年imagenet-1k图像分类竞赛上神经网络的top-5错误率,卷积神经网络的出现使得图像分类的精度大大提升:

在这里插入图片描述

2. 物体检测

在这里插入图片描述
一般主要有两种物体检测思想:

  1. 经典滑动窗口法

        早期,一般使用窗口扫描进行物体识别,计算量大,很难获得物体的精确定位。思想是:

  • 对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。
  • 每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。
  • 对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的物体标记,这些窗口大小会存在重复较高的部分。
  • 最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终,经过NMS筛选后获得检测到的物体。
  1. 边界框预测法
            红色的框表示标注框, 绿色的框为模型得到的预测框,白色为预先设定的锚框,让预测框以锚框为基准去逼近标注框,也就是预测框定位的精度可以趋近标注框,可以获得更好的物体定位,预测框可以输出一个概率。
    在这里插入图片描述
    在这里插入图片描述

3. 图像分割

        图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。与物体检测不同的是图像分割对物体进行像素级定位,如下图所示:

在这里插入图片描述
在这里插入图片描述

4. 视频分类

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狂奔的菜鸡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值