图像特征提取算法—HOG

本文探讨了图像特征提取算法HOG,介绍了其在行人检测中的应用,包括尺度不变性和旋转不变性的原理,以及HOG的计算流程、优点和改进方法。重点讲述了HOG的预处理、直方图计算和特征组成的步骤,并提到了PHOG的扩展。
摘要由CSDN通过智能技术生成

图像特征提取算法—HOG

一 图像基本概念

1.1特征

边缘,角,区域。但不同的目的对应着的不同的特征,边缘特征,颜色特征,梯度方向分布等。
每个物体,我们总可以用一些词语或部件来描述它,比如人脸的特征:两个眼睛、一个鼻子和一个嘴巴。对于图像而言,我们需要计算机去理解图像,描述图像就需要计算机去取得图像的特征,对图像比较全面的描述即一个二维矩阵,矩阵内的每个值代表图像的亮度。有时候我们需要让计算机更简化的来描述一个图像,抓住一些显著特征,这些特征要具有一些良好的性质,比如局部不变性。
局部不变性一般包括两个方面:尺度不变性与旋转不变性。
1)尺度不变性:人类在识别一个物体时,不管这个物体或远或近,都能对它进行正确的辨认,这就是所谓的尺度不变性。尺度空间理论经常与生物视觉关联,有人也称图像局部不变性特征为基于生物视觉的不变性方法。
2)旋转不变性:当这个物体发生旋转时,我们照样可以正确地辨认它,这就是所谓的旋转不变性。

1.2 特征描述子

就是图像的表示,抽取了有用的信息丢掉了不相关的信息,通常特征描述子会把一个wh3的图像转换成一个长度为n的向量,比如一幅641283的图像经过转换后的向量长度可以是3780。

1.3 图像特征的提取方法

(1)传统特征提取方法:基于图像本身的特征进行提取(2)深度学习方法:基于样本自动训练出区分图像的特征分类器

1.4 图像特征提取的操作步骤

预处理(分块)——特征提取——特征处理,然后再利用深度学习,机器学习等方法对特征进行分类,分割等操作预处理:预处理的目的只是排除干扰因素,突出特征信息,主要方法:(1)图片标准化:调整图片尺寸。(2)图片归一化:调整图片重心为0.特征提取:利用特殊的特征提取算子对图片进行特征提取,主要有:HOG,SIFT…特征处理:主要目的是为了排除信息量小的特征,减小计算量,常见方法有降维(主要成分分析,奇异值分解,线性判别分析)

二 常见的特征提取方法

2.1:HOG方向梯度直方图(Histogram of Oriented Gradient)

2.1.1 基本概念:梯度的方向分布作为特征,因为在边缘和角点的梯度值很大。基于统计的特征提取算法,通过统计不同梯度方向的像素而获得图像的特征向量,适合做图像中的人体检测。常与SVM(支持向量积)结合用在行人检测上。这个名字起的也很直白,就是说先计算图片某一区域中不同方向上梯度的值,然后进行累加,得到可以代表这块区域的直方图,使用直方图进行检索或分类。
2.1.2 HOG的优点:1):由于是在图像的局部方格单元上操作,所以他对图像几何和光学的形变都保持很好的不变性,这两种形变只会出现在更大的空间领域上。2):在粗的空域抽样,精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。
2.1.3特征提取:HOG特征的提取包括图像分割(分块),分区方向梯度直方图计算和组成特征等

步骤一

进行灰度化,Gamma矫正,重叠快归一化,分块等预处理。分割图像 HOG的图像分割策略,一般来说有overlap和non-overlap两种,如下图所示
在这里插入图片描述
Overlap指的是分割出的区块(patch,可以是任意尺度的)互相交叠,有重合的区域,non-overlap没有重合的区域,overlap:可以防止对一些物体的分割,以眼睛为例,如果分割的时候正好把眼睛从中间切割并分到两个patch中,提取完HOG特征之后会影响接下来的分类效果,但是如果两个patch之间有重叠,那么至少有一个patch会有完整的眼睛,overlap的缺点是计算量大,因为重叠区域的像素需要重复计算。Non-overlap优点是计算量小,缺点是会将一个连续的物体分隔开。

步骤二

将图像分割后,接下来就要计算每个patch的方向梯度直方图。A:利用任意一种梯度算子的核,例如sobel,laplacian等,对该patch进行卷积,然后利用下面公式得到每个像素点处的梯度方向和幅值:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Gx和Gy代表水平和垂直方向的梯度值,M(x,y)代表梯度的幅值,θ(x,y)代表梯度方向。可以得到梯度图。B:将360度(2*pi)根据需要分割成若干个bin,例如分割成16个bin,每个bin包含22.5度,整个直方图包含16维,即16个bin,然后根据线性内插法将其幅值累加到直方图中。
在这里插入图片描述

论文中建议将图像分割成更大的Block,并利用该Block对其中每个小patch进行颜色,亮度的归一化,这步主要是用来去掉光照,阴暗等影响,对光照影响不敏感的可以不做这一步,例如数字图像,对最终分类准确率的影响不大。

步骤三

组成特征:将每个patch中提取出的小HOG特征首位相连,组成一个大的一维向量,这就是最终的图像特征,可以将这个特征送到分类器中训练。例如有16个patch,则有16*12=192维长度的特征。

改进的HOG

与pyramid相结合,即PHOG,对一幅图像进行不同尺度的分割,然后计算每个尺度中patch的小HOG,最后将他们连成一个很长的一维向量作为特征。例如对512512的图像先进行33的分割,其次是66,1212,最终得到的是912+3612+14412=2268维的特征。不同尺度上获得的HOG特征必须对其归一化,因为33任意一维都比12*12大。PHOG相对于HOG优点是能检测到不同的尺度的特征,表达能力强,但缺点是数据量和计算量更大。

算法结果
在这里插入图片描述

参考文献
Navneet dalal and bill triggs,《Histograms of Oriented Gradients for Human Detection》,2005

  • 3
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值