OpenCV—python 手写数字字体识别(使用HOG特征)

一、训练分类器

步骤如下:

  • 计算数据库中每个样本的HOG特征。
  • 使用每个样本的HOG特征以及相应的标签训练多类线性SVM。
  • 将分类器保存在文件中

由于是灰度图(二值化图)不能用图像的直方图来作为图像特征,这里用到了HOG方向梯度直方图,可以说,正合适。

数据集下载地址:http://yann.lecun.com/exdb/mnist/
当然,你也可以在线下载

from sklearn.externals import joblib
from sklearn import datasets
from skimage.feature import hog
from sklearn.svm import LinearSVC
import numpy as np
import os
import struct



# 在线下载特征获取代码
dataset = datasets.fetch_mldata("MNIST Original")
features = np.array(dataset.data, 'int16') 
labels = np.array(dataset.target, 'int')


# 获取土图片HOG特征
list_hog_fd = []
for feature in features:
    fd = hog(feature.reshape((28, 28)), orientations=9, pixels_per_cell=(14, 14), cells_per_block=(1, 1), visualise=False)
    list_hog_fd.append(fd)
hog_features = np.array(list_hog_fd, 'float64')

# 创建clf对象
clf = LinearSVC() 
clf.fit(hog_features, labels) 
joblib.dump(clf, "digits_cls.pkl", compress=3)

离线下载数据集读取并训练

def load_mnist(path):            #读取数据函数
    #Load MNIST data from path
    labels_path = os.path.join(path, 'train-labels.idx1-ubyte')
    images_path = os.path.join(path, 'train-images.idx3-ubyte')

    with open(labels_path, 'rb') as lbpath:
        magic, n = struct.unpack('>II',lbpath.read(8))
        labels = np.fromfile(lbpath, dtype=np.uint8)

    with open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack(">IIII",imgpath.read(16))
        images = np.fromfile(imgpath, dtype=np.uint8).reshape(len(labels), 784)
    return images, labels

features,labels = load_mnist("./")
print('Rows: %d, columns: %d' % (features.shape[0], labels.shape[0]))

list_hog_fd = [] 
for feature in features:
    fd = hog(feature.reshape((28, 28)),     # hog 特征
             orientations=9, 
             pixels_per_cell=(14, 14), 
             cells_per_block=(1, 1), 
             visualise=False)
    list_hog_fd.append(fd)
hog_features = np.array(list_hog_fd, 'float64')

clf = LinearSVC()                                # 定义分类器
clf.fit(hog_features, labels)                    # 训练
joblib.dump(clf, "digits_cls.pkl", compress=3)   # 模型保存

# 压缩:0到9的整数可选
# 压缩级别:0没有压缩。越高意味着更多的压缩,而且读取和写入越慢。使用3的值通常是一个很好的折衷。

二、导入训练权重,使用图片检测

import cv2
from sklearn.externals import joblib
from skimage.feature import hog
import numpy as np

clf = joblib.load("digits_cls.pkl")                 # 读取分类器
im = cv2.imread("./num.png")                        # 读取输入图片 
im_gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)      # 灰度图化
im_gray = cv2.GaussianBlur(im_gray, (5, 5), 0)      # 高斯模糊(去噪)

ret, im_th = cv2.threshold(im_gray, 90, 255, cv2.THRESH_BINARY_INV)              # 阈值:二值化
ctrs, hier = cv2.findContours(im_th, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) # 查询图像轮廓 
rects = [cv2.boundingRect(ctr) for ctr in ctrs]    # 框出目标

# 对查询的目标识别:计算HOG特征图并且使用SVM预测数字
for rect in rects:
    cv2.rectangle(im, (rect[0], rect[1]), (rect[0] + rect[2], rect[1] + rect[3]), (0, 255, 0), 3) 
    leng = int(rect[3] * 1.6)
    pt1 = int(rect[1] + rect[3] // 2 - leng // 2)
    pt2 = int(rect[0] + rect[2] // 2 - leng // 2)
    roi = im_th[pt1:pt1+leng, pt2:pt2+leng]
    
    # resize 图片
    roi = cv2.resize(roi, (28, 28), interpolation=cv2.INTER_AREA)
    roi = cv2.dilate(roi, (3, 3))
    
    # 计算 HOG features
    roi_hog_fd = hog(roi, orientations=9, pixels_per_cell=(14, 14), cells_per_block=(1, 1), visualise=False)
    nbr = clf.predict(np.array([roi_hog_fd], 'float64'))
    cv2.putText(im, str(int(nbr[0])), (rect[0], rect[1]),cv2.FONT_HERSHEY_DUPLEX, 2, (0, 255, 255), 3)
cv2.imshow("Resulting Image with Rectangular ROIs", im)
cv2.waitKey(0)
cv2.destroyAllWindows()

数字应该相互分开。否则,如果数字太接近,则会干扰每个数字周围的正方形区域。在这种情况下,我们需要创建一个新的方形图像,然后我们需要复制该方形图像中的轮廓。

对于我们在测试中使用的图像,固定阈值工作得很好。在大多数现实世界的图像中,固定阈值不会产生好的结果。在这种情况下,我们需要使用自适应阈值。

在预处理步骤中,我们只做了高斯模糊处理。在大多数情况下,在二进制图像上,我们需要打开和关闭图像以去除小的噪点像素并填充小孔。

特别鸣谢
http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html

CV是一个开源的计算机视觉库,它可以用于处理图像和视频等多媒体数据。而Python是一种高级编程语言,它具有简单易学、代码简洁、可读性强等特点。结合OpenCVPython,我们可以实现很多有趣的应用,比如手写字符识别手写字符识别是指通过计算机程序对手写字符进行自动识别。在OpenCV中,我们可以使用支持向量机(SVM)算法来实现手写字符识别。具体步骤如下: 1. 收集手写字符数据集,包括训练集和测试集。 2. 对数据集进行预处理,比如二值化、去噪等。 3. 提取手写字符的特征,比如HOG特征、SIFT特征等。 4. 使用SVM算法对特征进行训练,得到分类器。 5. 对测试集进行测试,评估分类器的准确率。 下面是一个简单的示例代码,用于实现手写字符识别: ```python import cv2 import numpy as np # 读取手写字符图像 img = cv2.imread('handwritten_char.png', 0) # 对图像进行预处理 _, thresh = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU) kernel = np.ones((5, 5), np.uint8) thresh = cv2.morphologyEx(thresh, cv2.MORPH_CLOSE, kernel) # 提取手写字符的特征 contours, _ = cv2.findContours(thresh, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) rects = [cv2.boundingRect(cnt) for cnt in contours] features = [] for rect in rects: x, y, w, h = rect roi = thresh[y:y+h, x:x+w] roi = cv2.resize(roi, (20, 20)) feature = roi.reshape(-1) features.append(feature) # 加载分类器 svm = cv2.ml.SVM_load('svm.xml') # 对测试集进行测试 features = np.array(features, dtype=np.float32) _, results = svm.predict(features) # 输出识别结果 for i, result in enumerate(results): print('第%d个字符的识别结果为:%d' % (i+1, int(result))) ```
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SongpingWang

你的鼓励是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值