1、参考
https://blog.csdn.net/qq_36396104/article/details/79993090
2、问题范畴
对图像分析得到的特征进行分析,提取场景的语义表示,让计算机具有人眼和人脑的能力。
3、计算机视觉技术
3.1 人工智能方向
3.1.1 参考
https://blog.csdn.net/qq_25737169/article/details/80099628
3.1.2 图像分类 image classification
•AlexNet(2012)
•ZFNet(2013)
•VGG(2014)
•GoogleNet(2014)
•InceptionNet(2015)
•ResNet(2016)
•DenseNet(2016)
3.1.3 目标检测 object detection
•RCNN
•Fast RCNN https://arxiv.org/pdf/1504.08083.pdf
•Faster RCNN https://arxiv.org/pdf/1506.01497.pdf
•YOLO系列 http://lanl.arxiv.org/pdf/1612.08242v1
•SSD http://lanl.arxiv.org/pdf/1512.02325v5
3.1.4 目标追踪 object tracking
3.1.5 语义分割 Semantic Segmentation
空洞卷积 https://arxiv.org/pdf/1511.07122.pdf
DeepLab https://arxiv.org/pdf/1412.7062.pdf
RefineNet https://arxiv.org/pdf/1611.06612.pdf
3.1.6 实例分割 Instance Segmentation
4、思路
注意解决的问题、思路、已有实现
5、数学知识
5.1 正态分布(高斯分布)
5.1.1 参考
https://blog.csdn.net/hhaowang/article/details/83898881
5.1.2 说明
正态分布是自然科学与行为科学中的定量现象的一个方便模型。各种各样的心理学测试分数和物理现象比如光子计数都被发现近似地服从正态分布。
5.1.3 小结
高斯分布是一种概率分布模型
其形状像一个倒扣的钟,在期望值μ处对称
其积分函数为累积分布函数,其形状与大部分事件的发展相似,先缓慢增加,然后越来越快,增速下降,直至平缓
6、贝叶斯分类器
6.1 参考
https://blog.csdn.net/yangjingjing9/article/details/79986371
6.2 一种分类算法,基于贝叶斯定理
6.3 贝叶斯定理
6.3.1 解决先验概率已知情况下的后验概率,其概率是变化的
6.3.2 贝叶斯公式
P(A|B) = P(A)*P(B|A)/P(B)
6.3.3 问题关键
找到问题的关联双方,并且对应到计算公式,获取先验概率,推导后验概率
举例
参考
https://blog.csdn.net/weixin_38581615/article/details/79715013
1)邮件中出现M词是否是垃圾邮件的概率
P(B):邮件中出现M词概率
P(A):垃圾邮件概率
P(B|A):垃圾邮件中出现M词概率
P(A|B):邮件中出现M词是垃圾邮件的概率
2)年满30岁女性购买M商品的概率
P(B):年满30的女性概率
P(A):购买M商品的概率
P(B|A):购买M商品是年满30岁女性的概率
P(A|B):年满30岁女性购买M商品的概率
3)HIV检测阳性是真的HIV携带者的概率
参考
https://www.jianshu.com/p/fb058253324d
P(B):HIV检测阳性
P(A):真HIV携带者
P(B|A):真HIV携带者检测出阳性的概率
P(A|B):HIV检测阳性是真HIV携带者概率
6.4 极大似然估计
6.4.1 参考
https://www.jianshu.com/p/e0eb4f4ccf3e
https://blog.csdn.net/qq_39355550/article/details/81809467
6.4.2 两个条件
假定数据服从某种已知的特定数据分布型。
已经得到了一定的数据集。
6.4.3 求最大似然估计量的一般步骤
1)写出似然函数;
2)对似然函数取对数,并整理;
3)求导数;
4)解似然方程。
6.5 朴素贝叶斯分类器
6.5.1 参考
https://blog.csdn.net/yangjingjing9/article/details/79986371
6.5.2 假定条件
属性条件独立
对于连续属性可考虑为概率密度函数,满足正态分布
7、支持向量机
https://www.jianshu.com/p/7d5693d9e2fe
8、K近邻算法
参考
https://blog.csdn.net/weixin_41571493/article/details/82695010
https://www.jianshu.com/p/0d59b9777f55
9、图像特征提取
9.1 参考
https://blog.csdn.net/Assure_zhang/article/details/80503196
9.2 思路
找到具有较小的类内距(同类图像之间),具有较大类间距(不同类图像之间)的特征
9.3 一般特征举例
1)自然特征:亮度、边缘、纹理、色彩、周长、面积、致密性、质心、灰度均值、灰度中值
2)变换特征:矩、直方图、局部二进制模式(LBP, Local Binary Pattern)
直方图相关的特征:
(1)均值
(2)标准方差
(3)平滑度
(4)三阶矩
(5)一致性
(6)熵(信息量)
9.4 多维特征存在的问题
由于特征是为了“高内聚、低外聚”,所以并非特征越多越好,需要对特征进行降维,提取最主要的特征,这里就需要用到主成分分析(Princjpal Component Analysis, PCA)法。
9.5 其他
9.5.1 局部二进制模式(LBP, Local Binary Pattern)
1)一种有效的纹理描述算子,用来提取纹理
2)实现简单,结合阈值与重编码技术,得到中心点值
9.5.2 局部直方图统计
难点:局部的大小多少合适
解决:当前采用一种经验值方式,比如人脸识别使用18X21的分区大小
9.5.3 方向梯度直方图(Histogram of Oriented Gradient, HOG)
HOG+SVM:很好的解决行人检测
具体实现:
1)将图像分成小的连通区域,称为细胞单元
2)采集细胞单元中各像素点的梯度方向直方图
3)把这些直方图组合起来就可以构成特征描述器
性能提升:增加局部直方图的归一化
9.5.4 Haar-like算法
9.5.4.1 参考
https://blog.csdn.net/qq_35860352/article/details/83827716
9.5.4.2 作用
Haar-like是一种非常经典的特征提取算法,尤其是它与AdaBoost组合使用时对人脸检测有着不错的效果
9.5.4.3 思想
类似于卷积核机制,定义了一些特征提取的结构,基本的有4种,可以扩展到14种
9.5.4.4 优化
为了提升计算性能,可以采用积分图像法,快速计算
9.5.4.5 实现
OpenCV的Haar分类器就是基于扩展后的特征库实现的。
10、边缘检测
10.1 参考
https://blog.csdn.net/u013270326/article/details/81412566
10.2 注意点
卷积核的形式
10.3 Canny边缘检测
10.3.1 参考
https://blog.csdn.net/saltriver/article/details/80545571
10.3.2 解决问题
边缘检测中一个多阶算法,特点是:图像梯度+阈值筛选
10.3.3 实现
opencv中有已实现的方法
10.4 图像梯度
10.4.1 参考
https://blog.csdn.net/saltriver/article/details/78987096
10.4.2 小结
计算单点的梯度需要考虑x和y两个方向,可以使用诸如Sober、Laplacian等核进行滤波,得到两个方向的梯度之后,可以使用或M(x,y)=|gx|+|gy| 得到该点的组合梯度,将梯度+原始的点上,就可以突出图像边缘
图像梯度可以有效的突出图像的边缘,从而增强图像的细节表现
11、图像连通性检测
实现参考
https://www.cnblogs.com/ronny/p/img_aly_01.html
12、插值算法
12.1 参考
https://www.jianshu.com/p/afe81f6555d9
12.2 最临近插值算法(INTER_NEAREST)
12.3 双线性内插值算法(INTER_LINEAR)
核心公式:f(i+u,j+v) = (1-u)(1-v)f(i,j) + (1-u)vf(i,j+1) + u(1-v)f(i+1,j) + uvf(i+1,j+1)
12.4 4x4像素邻域的双三次插值(INTER_CUBIC)
12.5 使用像素区域关系进行重采样(INTER_AREA)
12.6 8x8像素邻域的Lanczos插值(INTER_LANCZOS4)