机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)
案例介绍
如果你对R
或Python
编程、机器学习技术有了一些经验,但是对“计算机视觉”领域是个新手,那么,本案例——“数字识别”,是入门该领域的经典案例。自从1999年公布以来,MNIST
这个手写数字图像数据集就成为分类算法的经典数据集。本案例的任务是,从成千上万的手写数字图像里正确识别数字。我们将训练的技能包括:
-
计算机视觉基础,包括简单的神经网络;
-
分类方法,包括支持向量机和K近邻。
数据描述
训练集和检验集包括从0 ~ 9的手写数字的灰度图像。其中,每个图像包括28个像素高、28个像素宽,
总共784个像素。每个像素有一个表示亮暗度的值,在0~255的整数之间,该值越大,表示像素越黑。
训练集(train.csv
)有785列,首列label
, 是用户手写数字,其余列是该数字的像素值。每一个像素列的名字类似pixelx
, 这里的x
在0 ~ 783之间。为了定位像素在图像里的位置,分解 x = i × 28 + j x=i\times 28+j x=i×28+j,