HOG是什么?
方向梯度直方图,也称为HOG,是一种特征描述符,类似于Canny边缘检测器。它用于计算机视觉和图像处理中的目标检测。
该技术统计图像局部区域中梯度方向的出现次数。该方法类似于边缘方向直方图和尺度不变特征变换(SIFT)。
HOG描述符关注对象的结构或形状。它比任何边缘描述符都好,因为它使用梯度的大小和角度来计算特征。对于图像区域,它使用梯度的大小和方向生成直方图。
计算特征的步骤
1.获取要计算其特征的输入图像。将图像调整为128x64像素(高128像素,宽64像素)的图像。论文中使用了该维度,作者建议将其作为此类检测的主要目标,以在行人检测任务中获得更好的结果。由于本文作者在麻省理工学院行人数据库上获得了异常完美的结果,他们决定制作一个新的、更具挑战性的数据集,称为“INRIA”数据集(http://pascal.inrialpes.fr/data/human/),包含从一组不同的个人照片中剪下的1805(128x64)幅人类图像。
图1:导入的图像。图2:灰度图像。图3:缩放导入图像和灰度图像:
2.计算图像的梯度。梯度是通过结合图像的大小和角度来获得的。考虑3x3像素的块,首先计算每个像素的Gx和Gy。对于每个像素值,首先使用以下公式计算Gx和Gy。
在计算Gx之后,使用下面提到的公式计算每个像素的幅值和角度。
图4:图像幅值的可视化。图5:图像角度的可视化图片
3.在获得每个像素的梯度后,梯度矩阵(幅值和角度矩阵)被划分为8x8个单元以形成块。对于每个块,计算9 区间 直方图,每个区间的角度范围为20度。图8表示一个9区间的直方图,其中的值在计算后分配。这些直方图中的各个区间输出该块中梯度的幅值。由于块包含64个不同的值,因此对于所有64个幅值和梯度值,将执行以下计算。由于我们使用9区间直方图,因此:
第j个区间的边界如下:
每个区间的中心值为:
图6:幅值图像上的8x8块。图7:角度图像上的8x8块图片
图8:9区间直方图的表示