一、步骤流程及相关介绍
1.流程
2.相关介绍
相关准备:
dlib:
链接
https://pan.baidu.com/s/1ZmrMD7rk4VGZ4x6KHfSa6w
提取码:1713
68个人脸特征点:
链接:https://pan.baidu.com/s/1Ys3gI03GQOGudfJ5whnBzA
提取码:0526
图片集:
https://pan.baidu.com/s/1_A5gM64_dPI3offCMInhMw
提取码:1713
HOG介绍
HOG是Histogram of Oriented Gradient的缩写,是一种在计算机视觉和图像处理中用来进行目标检测的特征描述子。可结合OPENCV的SVM分类器等用于图像的识别。
特征提取流程:
HOG特征提取流程可分为6个部分:检测窗口、归一化图像、计算梯度、统计直方图、梯度直方图归一化、得到HOG特征向量,以下分步骤介绍。
(1)检测窗口:
HOG通过窗口(window)和块(block)将图像进行分割。通过以细胞(cell)为单位,对图像某一区域的像素值进行数学计算处理。在此先介绍窗口(window)、块(block)和细胞(cell)的概念及之间的联系。
- 窗口(window):将图像按一定大小分割成多个相同的窗口,滑动。
- 块(block):将每个窗口按一定大小分割成多个相同的块,滑动。
- 细胞(cell):将每个窗口按一定大小分割成多个相同的细胞,属于特征提取的单元,静止不动。
- 图像(image)->检测窗口(win)->图像块(block)->细胞单元(cell)
(2)归一化图像:
归一化分为gamma空间和颜色空间归一化。为减少光照因素影响,将整个图像进行规范化(归一化)。(归一化公式:y=(x-MinValue)/(MaxValue-MinValue))。归一化同时可以避免在图像的纹理强度中,局部的表层曝光贡献度的比重较大的情况。标准化Gamma压缩公式:I(x,y)=I(x,y)^gamma. gamma根据自己效果取值,如1/2.
(3)计算梯度:
计算图像横坐标和纵坐标方向的梯度,并根据横坐标和纵坐标的梯度,计算梯度方向。下图为计算公式图:
在算法中,常先用[-1,0,1]进行卷积操作求得x方向的梯度值,再采用[-1,0,1]T进行卷积操作求得y方向。而后采用上述公式求梯度幅值和方向。
(4)构建梯度直方图:
HOG构建方向梯度直方图在细胞(cell)中完成:
bins(可理解为划分的个数)决定方向的划分。一般bins取9,将梯度方向划分为9个区间。(注:关于划分区间,有些博主以360°计算。鄙人查opencv书籍,发现确应按180度进行计算,artan所得值得范围即为180°。)例如,假设一个细胞尺寸为6*6,则对这个细胞内的36个像素点,先判断像素点梯度方向所属的区间,后根据像素点的梯度幅值大小和梯度方向的大小进行加权于对应的梯度方向区间。(加权方法可有线性加权、平方根等等各种高大尚的加权方法)以下是按照9个区间,进行角度划分的图像。
(5)块内进行细胞归一化梯度直方图。
原因:局部光照的变化及前景-背景对比度的变化,使梯度强度的变化范围很大,在此需要进行归一化,(查资料,使用的归一化函数有L2-norm、L2-Hys、L1-norm于L1-sqrt等,O(∩_∩)O,没听过?没办法,谁让你那么菜呢???)进一步对光照、阴影和边缘进行压缩。根据上述介绍,把
(6)生成HOG特征向量:
最后组合所有的块,生成特征向量:例对于一个64128的窗口而言,每88的像素组成一个cell,每22个cell组成一个块,每个块有94个特征,以8个像素为步长,水平方向将有7个扫描窗口,垂直方向将有15个扫描窗口。所以,一个64128的窗口共367*15=3780个特征,代码中一个hog描述子针对一个检测窗口。
HOG加权方法:
HOG采用三线性加权法,有两个部分用到加权,分别是构建梯度直方图和细胞归一化。以下分别介绍:
在构建梯度直方图时,假若一个像素点的梯度方向为25°,距离020°和2040°最近,采用加权方法,对相邻两个区间进行幅度值相加,分别为(25-10)/20=0.75和(25-20)/20=0.25的权重值进行累加。
同时,在收集块内梯度方向直方图时,存在一个既定假设,即位于不同细胞内的像素点只会对其从属的细胞进行投影,并不会对其周围的细胞产生影响。显然,若对于细胞交界处的像素点和在块滑动情况下,这样的假设未免显得有点牵强,因为它们与其周围所有的细胞都是相关的。
HOG算法优缺点:
优点:
(1)HOG表示边缘的结构特征,可以描述局部的形状信息。
(2)位置和方向空间的量化一定程度上可以抑制平移和旋转带来的影响。
(3)采用归一化,可以抵消光照带来的变化
缺点:
(1)描述子生成过程冗长,维度较高
(2)很难处理遮挡问题。
(3)对噪点敏感
二、编写代码
版本:
python 3.8 + opencv 4.0.1
导包(环境内没有的包自己pip install xx下载):
# 导入包
import numpy as np
import cv2
import dlib
import random#构建随机测试集和训练集
from sklearn.svm import SVC #导入svm
from sklearn.svm import LinearSVC #导入线性svm
from sklearn.pipeline import Pipeline #导入python里的管道
import os
import joblib#保存模型
from sklearn.preprocessing import StandardScaler,PolynomialFeatures #导入多项式回归和标准化
import tqdm
定义路径:
folder_path='C:/Users/86150/Downloads/genki4k (1)/genki4k/'#这里直接写的绝对路径
label='labels.txt'#标签文件
pic_folder='files/'#图片文件路径
获得默认的人脸检测器和训练好的人脸68特征点检测器:
#获得默认的人脸检测器和训练好的人脸68特征点检测器
def get_detector_and_predicyor():
#使用dlib自带的frontal_face_detector作为我们的特征提取器
detector = dlib.get_frontal_face_detector()
"""
功能:人脸检测画框
参数:PythonFunction和in Classes
in classes表示采样次数,次数越多获取的人脸的次数越多,但更容易框错
返回值是矩形的坐标,每个矩形为一个人脸(默认的人脸检测器)
"""
#返回训练好的人脸68特征点检测器
predictor = dlib.shape_predictor('shape_predictor_68_face_landmarks.dat')
return detector,predictor
#获取检测器
detector,predictor=get_detector_and_predicyor()
定义截取面部的函数:
def cut_face(img,detector,predictor):
#截取面部
img_gry=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
rects = detector(img_gry, 0)
if len(rects)!=0:
mouth_x=0
mouth_y=0
landmarks = np.matrix([[p.x, p.y] for p in predictor(img,rects[0]).parts()])
for i in range(47,67):#嘴巴范围
mouth_x+=landmarks[i][0,0]
mouth_y+=landmarks[i][0,1]
mouth_x=int(mouth_x/20)
mouth_y=int