2.1.2 预处理实现
按照上面的处理流程,获取处理后的图片数组文件。为了后续方便,最终得到的图片的格式为 38080 的图片。每一个模块实现过程如下:
读取图片文件: os.listdir 获取图片所在的文件夹下的所有图片的名称,得到图片的总个数 N。利用 matplotlib 提供的 imread 函数读取 jpg 格式的文件。
转换到 38080 的格式: 直接读出的 jpg 格式的格式为 80803 的数组,利用 numpy 的 transpose 函数,转换各个坐标轴,即 = . (2,0,1)得到
38080 的数据。
得到所有的图片数据和标签数据: 申请 N380*80的数组 Pictures 和 N维向量 labels,每读取一个图片,将当前图片赋值到 Pictures 中,同时将文件名的第一个字母转换成数字,即为对应的标签,将其赋值到 labels 向量中。
保存读取的文件: 利用 np.save 将处理得到的数据保存。
读取已经保存后文件: 利用 np.load 加载已经保存的数据。
2.2 降维可视化
降维可视化是将高维的图片数据映射到二维和三维空间中,以图像的方式观察各个类别的分布,达到可视化的目的。
源码和文档都托管在了【WRITE-BUG数字空间】上面了,有需要的可自取~