计算机视觉思维导图大纲
------------------------------------------------------------------------------------------------------------------
1、GPU的概念
什么是GPU呢?首先说一下什么是GPU,GPU(Graphics Processing Unit)即图形处理器,又称显示核心,也就是显卡的核心,本来专门用于图形图像处理。
什么时候用GPU呢?GPU为什么比CPU计算能力强大?下面这张图比较直观的显示了GPU的强大计算能力。CPU计算核心少,顶多数十个,GPU计算核心多,几千个计算核心很常见。但两者的计算核心有显著不同,CPU的计算核心有复杂而强大的控制单元Control,但是有较少的计算单元ALU;GPU相反,控制单元简单,但是计算单元ALU数量众多。可以简单的理解为,GPU可以完成很复杂的任务,计算仅是其“副业”;而GPU一般仅做简单的计算任务,但是由于计算单元众多,可把计算任务瓜分,人多力量大,很快把任务做完。GPU特别适合大量并行的数据运算(高运算密度)。
GPU强于计算,但并不能独自完成复杂的任务,所以GPU通用计算通常采用所谓CPU+GPU异构模式,由CPU负责执行复杂逻辑处理和事务处理,由GPU负责计算密集型的大规模数据并行计算。CPU(加主机内存)充当主机Host的角色,GPU(加显存)充当设备Device的角色。Host与Device之间可以PCI-E总线进行通信,这样它们之间可以进行数据拷贝,协同工作。
2、计算机视觉2个主要研究维度
3、研究挑战
(1)视角变化
(2)光照变化
(3)尺度变化
(4)形态变化
(5)背景混淆干扰
(6)遮挡
(7)类内物体的外观差异
4、知识大纲
(1)计算机视觉的基础
- 图像预处理
- 图像特征及描述
(2)深度学习的理论基础
- BP神经网络详解
- 深度学习基础
(3)深度学习在计算机视觉中的应用
- 图像分类 <————卷积神经网络CNN
- 图像检测 <————区域卷积神经网络R-CNN
- 图像分割 <————全卷积神经网络FCN
- 图像描述 <————迭代神经网络RNN
- 图像生成 <————生产对抗网络GAN
5、主要研究的问题
(1)图像预处理
- 图像显示与存储原理
- 图像增强的目标
- 点运算:基于直方图的对比增强
- 形态学处理
- 空间域处理:卷积
- 卷积的应用(平滑、边缘检测、锐化等)
- 频率域处理:傅里叶变换、小波变换
(2)图像特征及描述
- 颜色特征
量化颜色直方图
聚类颜色直方图
- 几何特征
Edge、Corner、Blob
- 基于关键点的特征描述子
SIFT、SURF、ORB
- 其他特征提取(LBP、Gabor)
(3)深度学习之前的方法
- 图像分割
基于阈值、基于边缘
基于区域、基于图论
- 人脸检测
Haar-like特征+级联分类器
- 行人检测
HOG+SVM
DPM
(4)神经网络与深度学习基础
- 神经网络
神经元
前馈网络
梯度下降
误差反向传播
- 深度学习
与传统神经网络的区别
目标函数
改进的梯度下降
避免过适应
(5)识别——>内容是什么?
- 人脸识别
- 字符识别
- 车牌识别
- 行为识别
- 步态识别
(6)基于深度学习的方法
图片分类——>有没有?
(7)卷积神经网络CNN
- 计算机视觉中的基础网络
- 有监督深度模型时代的起点
- AlexNet——>VGG——>GoogLeNet——>ResNet——>ResNeXt
- GoogLeNet
Inception V1——>V2——>V3——>V4
Inception ResNet V1——>V2
- 结构趋势
更深(Depth):8层——>1000+层
更宽(Width):1分支——>4+分支
更多基数(Cardinality):1——>32
(8)区域卷积神经网络R-CNN
(9)全卷积神经网络FCN
(10)递归神经网络RNN
(11)生成对抗网络GAN