机器学习实战之K-近邻算法（KNN）（三）示例：手写数字识别（含数据集）

最新推荐文章于 2023-03-07 19:57:50 发布

琼简

最新推荐文章于 2023-03-07 19:57:50 发布

阅读量2.7k

点赞数 6

文章标签： python 算法机器学习人工智能

本文链接：https://blog.csdn.net/weixin_45814668/article/details/105891310

版权

本文介绍了如何使用K-近邻（KNN）算法进行手写数字识别，包括数据收集、预处理、算法实现及测试。通过将图像转化为向量并应用KNN分类器，实现了1.37%的错误率。尽管KNN算法简单有效，但存在计算复杂度高、存储需求大的问题。

摘要由CSDN通过智能技术生成

转载请注明作者和出处：https://blog.csdn.net/weixin_45814668
微信公众号：qiongjian0427
在这里插入图片描述
知乎：https://www.zhihu.com/people/qiongjian0427
Git：https://github.com/qiongjian/Machine-learning/
Python版本： Python3.x

示例：手写数字识别

流程如下：
（1）收集数据：提供文本文件。
（2）准备数据：编写函数img2vector()，将图像格式转换为分类器使用的向量格式。
（3）分析数据：在Python命令提示符中检擦数据，确保它符合要求。
（4）训练算法：此步骤不适用于k-近邻算法。
（5）测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。

收集数据

目录trainingDigits中包含了大约2000个例子，每个例子的内容如下图所示，每个数字大约有200个样本；目录testDigits中包含了大约900个测试数据。

数据集点这里下载，关注公众号回复knn3下载。

这些文本格式存储的数字的文件命名格式为：数字的值_该数字的样本序号。
在这里插入图片描述

准备数据

将图像转换为分向量格式。
需要识别的数字已经使用图形处理软件，处理成具有相同的色彩和大小：宽高是32像素x32像素的黑白图像。

图：手写数字数据集的例子，由0和1组成。
在这里插入图片描述

我们首先将图像转换为一个向量，把一个30×32的二进制图像矩阵转换为1×1024的向量。

编写函数img2vector()，该函数创建1×1024的NumPy数组，打开给定的文件，循环读出文件的前32行，将每行的头32个字符存储到NumPy数组，最后返回数组。

python3代码：

# 导入包
from numpy import *
import os
import operator

def img2vector(filename):
    returnVect = zeros((1, 1024))#初始化要返回的1*1024向量
    fr = open(filename) #打开文件
    for i in range(32):
        #循环读取文件的前32行
        lineStr = fr.readline()
        for j