图像特征提取算法—HOG

最新推荐文章于 2024-06-28 15:30:07 发布

从零开始入门算法

最新推荐文章于 2024-06-28 15:30:07 发布

阅读量8k

点赞数 3

文章标签：计算机视觉人工智能机器学习

原文链接：https://blog.csdn.net/u011285477/article/details/50974230

版权

本文探讨了图像特征提取算法HOG，介绍了其在行人检测中的应用，包括尺度不变性和旋转不变性的原理，以及HOG的计算流程、优点和改进方法。重点讲述了HOG的预处理、直方图计算和特征组成的步骤，并提到了PHOG的扩展。

摘要由CSDN通过智能技术生成

图像特征提取算法—HOG

一图像基本概念

1.1特征

边缘，角，区域。但不同的目的对应着的不同的特征，边缘特征，颜色特征，梯度方向分布等。
每个物体，我们总可以用一些词语或部件来描述它，比如人脸的特征：两个眼睛、一个鼻子和一个嘴巴。对于图像而言，我们需要计算机去理解图像，描述图像就需要计算机去取得图像的特征，对图像比较全面的描述即一个二维矩阵，矩阵内的每个值代表图像的亮度。有时候我们需要让计算机更简化的来描述一个图像，抓住一些显著特征，这些特征要具有一些良好的性质，比如局部不变性。
局部不变性一般包括两个方面：尺度不变性与旋转不变性。
1）尺度不变性：人类在识别一个物体时，不管这个物体或远或近，都能对它进行正确的辨认，这就是所谓的尺度不变性。尺度空间理论经常与生物视觉关联，有人也称图像局部不变性特征为基于生物视觉的不变性方法。
2）旋转不变性：当这个物体发生旋转时，我们照样可以正确地辨认它，这就是所谓的旋转不变性。

1.2 特征描述子

就是图像的表示，抽取了有用的信息丢掉了不相关的信息，通常特征描述子会把一个wh3的图像转换成一个长度为n的向量，比如一幅641283的图像经过转换后的向量长度可以是3780。

1.3 图像特征的提取方法

（1）传统特征提取方法：基于图像本身的特征进行提取（2）深度学习方法：基于样本自动训练出区分图像的特征分类器

1.4 图像特征提取的操作步骤

预处理（分块）——特征提取——特征处理，然后再利用深度学习，机器学习等方法对特征进行分类，分割等操作预处理：预处理的目的只是排除干扰因素，突出特征信息，主要方法：（1）图片标准化：调整图片尺寸。（2）图片归一化：调整图片重心为0.特征提取：利用特殊的特征提取算子对图片进行特征提取，主要有：HOG,SIFT…特征处理：主要目的是为了排除信息量小的特征，减小计算量，常见方法有降维（主要成分分析，奇异值分解，线性判别分析）

二常见的特征提取方法

2.1：HOG方向梯度直方图(Histogram of Oriented Gradient)

2.1.1 基本概念：梯度的方向分布作为特征，因为在边缘和角点的梯度值很大。基于统计的特征提取算法，通过统计不同梯度方向的像素而获得图像的特征向量，适合做图像中的人体检测。常与SVM（支持向量积）结合用在行人检测上。这个名字起的也很直白，就是说先计算图片某一区域中不同方向上梯度的值，然后进行累加，得到可以代表这块区域的直方图，使用直方图进行检索或分类。
2.1.2 HOG的优点：1）：由于是在图像的局部方格单元上操作，所以他对图像几何和光学的形变都保持很好的不变性，这两种形变只会出现在更大的空间领域上。2）：在粗的空域抽样，精细的方向抽样以及较强的局部光学归一化等条件下，只要行人大体上能够保持直立的姿势，可以容许行人有一些细微的肢体动作，这些细微的动作可以被忽略而不影响检测效果。
2.1.3特征提取：HOG特征的提取包括图像分割（分块），分区方向梯度直方图计算和组成特征等

步骤一

进行灰度化，Gamma矫正，重叠快归一化，分块等预处理。分割图像 HOG的图像分割策略，一般来说有overlap和non-overlap两种，如下图所示
在这里插入图片描述
Overlap指的是分割出的区块（patch，可以是任意尺度的）互相交叠，有重合的区域，non-overlap没有重合的区域，overlap:可以防止对一些物体的分割，以眼睛为例，如果分割的时候正好把眼睛从中间切割并分到两个patch中，提取完HOG特征之后会影响接下来的分类效果，但是如果两个patch之间有重叠，那么至少有一个patch会有完整的眼睛，overlap的缺点是计算量大，因为重叠区域的像素需要重复计算。Non-overlap优点是计算量小，缺点是会将一个连续的物体分隔开。

步骤二

将图像分割后，接下来就要计算每个patch的方向梯度直方图。A:利用任意一种梯度算子的核，例如sobel,laplacian等，对该patch进行卷积，然后利用下面公式得到每个像素点处的梯度方向和幅值：
在这里插入图片描述

Gx和Gy代表水平和垂直方向的梯度值，M（x,y）代表梯度的幅值，θ（x,y）代表梯度方向。可以得到梯度图。B:将360度（2*pi）根据需要分割成若干个bin，例如分割成16个bin,每个bin包含22.5度，整个直方图包含16维，即16个bin,然后根据线性内插法将其幅值累加到直方图中。
在这里插入图片描述

论文中建议将图像分割成更大的Block,并利用该Block对其中每个小patch进行颜色，亮度的归一化，这步主要是用来去掉光照，阴暗等影响，对光照影响不敏感的可以不做这一步，例如数字图像，对最终分类准确率的影响不大。

步骤三

组成特征:将每个patch中提取出的小HOG特征首位相连，组成一个大的一维向量，这就是最终的图像特征，可以将这个特征送到分类器中训练。例如有16个patch,则有16*12=192维长度的特征。

改进的HOG

与pyramid相结合，即PHOG，对一幅图像进行不同尺度的分割，然后计算每个尺度中patch的小HOG，最后将他们连成一个很长的一维向量作为特征。例如对512512的图像先进行33的分割，其次是66，1212，最终得到的是912+3612+14412=2268维的特征。不同尺度上获得的HOG特征必须对其归一化，因为33任意一维都比12*12大。PHOG相对于HOG优点是能检测到不同的尺度的特征，表达能力强，但缺点是数据量和计算量更大。

算法结果
在这里插入图片描述

参考文献
Navneet dalal and bill triggs,《Histograms of Oriented Gradients for Human Detection》,2005

从零开始入门算法

关注

3
点赞
踩
55

收藏

觉得还不错? 一键收藏
0
评论
图像特征提取算法—HOG

图像特征提取算法—HOG一图像基本概念1.1特征边缘，角，区域。但不同的目的对应着的不同的特征，边缘特征，颜色特征，梯度方向分布等。每个物体，我们总可以用一些词语或部件来描述它，比如人脸的特征：两个眼睛、一个鼻子和一个嘴巴。对于图像而言，我们需要计算机去理解图像，描述图像就需要计算机去取得图像的特征，对图像比较全面的描述即一个二维矩阵，矩阵内的每个值代表图像的亮度。有时候我们需要让计算机更简化的来描述一个图像，抓住一些显著特征，这些特征要具有一些良好的性质，比如局部不变性。局部不变性一般包括两个
复制链接

扫一扫