机器学习讲堂　skimage.feature.hog

最新推荐文章于 2023-02-10 18:46:09 发布

计算机视觉-Archer

最新推荐文章于 2023-02-10 18:46:09 发布

阅读量6.8k

点赞数 1

分类专栏：机器学习讲堂

机器学习讲堂专栏收录该内容

7 篇文章

订阅专栏

本文深入解析了scikit-image库中的HOG（Histogram of Oriented Gradients）特征提取方法，阐述了其从图片、Block、Cell三个层次进行梯度统计信息提取的过程。文章特别强调了在使用scikit-image的HOG函数时，关于参数设置的常见误区，如cell和block尺寸的正确配置，以及如何避免因参数设置不当而导致的空列表返回等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scikit-image HOG feature
原文：https://blog.csdn.net/vola9527/article/details/52802837

原理：

Hog 特征比较直观好懂，本质是提取图片内的梯度统计信息。

其提取图片特征的层次，可以分为：图片／Block／cell 这三个层次，每个层次有下属层次的多个单位构成，
例如图片被分为Ｎ个block 具体是采用滑动窗口，
每个ｂlock又被分为多个cell，其中cell 作为最底层是提取梯度信息的最基本单位。
统计ｃｅｌｌ内所有像素的梯度方向信息并将其划分到预设的梯度方向范围内，便形成了基本的梯度直方图信息。
接下来就是一个逆向的组合过程，即，底层ｃｅｌｌ的梯度信息不断地组合在一起（还有归一化）形成ｂｌｏｃｋ的特征，ｂｌｏｃｋ的特征在组合在一起就成了ｉｍａｇｅ的ｆｅａｔｕｒｅ，这里说的组合值得是拼接的意思。
归一化目的是去除光噪声的影响，这个好理解，因为均匀光源对图片的影响是加性的，并不改变相对大小，引起归一化是起一点抗燥作用的。

扯原理太多了，这里主要是说明我使用scikit-image 中ＨＯＧ函数的心得。

函数用法：

scikit-image 里面的hog函数是这样的：

ft.hog(image, orientations=orientations,
　pixels_per_cell=pixels_per_cell, transform_sqrt=is_transform,
　feature_vector=is_feature_vector,
cells_per_block=cells_per_block, visualise=is_visualise)

pixels_per_cell= [ 像素宽度，像素高度], cell_per_block= [ 宽度，高度】

ｅｇ:

　size = 128

　 ft. hog(gray, orientations=12,block_norm='L1', pixels_per_cell=[8, 8], cells_per_block=[4, 4], visualize=False,

transform_sqrt=True)

每个cell　８，８　像素，
每个block　４，４　个cell,
每个block　３２，３２　个像素
可以有４个block

其中的参数名称我已写的直观易懂了。问题来了，希望大家注意以下几点：

１整个函数的参数使用的是类似opencv 的参数格式，即【宽度，高度】而非python numpy 中的[行数，列数], 因此pixels_per_cell= [ 像素宽度，像素高度], cell_per_block= [ 宽度，高度】

２ cell 尺寸和block尺寸问题:

        cell尺寸的倍数只能比block小，不能比之大，否则就会越界，返回空列表。

        例如：img=[11,11], pixel_per_cell=[5,5], cell_per_block= [2,2] 是可以的。将pixel_per_cell设置为 [6,6]其他不变，就是不行。
        想想也奇怪，真是宁可漏掉都不能重叠。
        （每个cell的像素是５，５，每个block里面的cell是２，２，一共是１０，１０个像素，小于img的11,11）

３函数使用中参数设置错误，不会报错，只会给你返回一个空列表。这点最令人无法忍受，一点都不友好。