最近在学习百度云智学苑的EasyDL课程时,发现这里对计算机视觉的简介挺清晰移动的,结合本人的一些理解,这里简述一下计算机视觉。
计算机视觉是一门研究如何使机器"看"的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
计算机视觉一般涉及到图像分类、物体检测、图像分割和视频分类。
1. 图像分类
图像分类就是给定一个图像,正确给出该图像所属的类别。一般是监督学习,训练集和验证机比例为3:1或7:3
下图为每年imagenet-1k图像分类竞赛上神经网络的top-5错误率,卷积神经网络的出现使得图像分类的精度大大提升:
2. 物体检测
一般主要有两种物体检测思想:
- 经典滑动窗口法
早期,一般使用窗口扫描进行物体识别,计算量大,很难获得物体的精确定位。思想是:
- 对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。
- 每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。
- 对每个不同窗口大小的滑窗都进行检测后,会得到不同窗口检测到的物体标记,这些窗口大小会存在重复较高的部分。
- 最后采用非极大值抑制(Non-Maximum Suppression, NMS)的方法进行筛选。最终,经过NMS筛选后获得检测到的物体。
- 边界框预测法
红色的框表示标注框, 绿色的框为模型得到的预测框,白色为预先设定的锚框,让预测框以锚框为基准去逼近标注框,也就是预测框定位的精度可以趋近标注框,可以获得更好的物体定位,预测框可以输出一个概率。
3. 图像分割
图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。与物体检测不同的是图像分割对物体进行像素级定位,如下图所示:
4. 视频分类