西储大学数据的处理其实不复杂,在网上用心搜索的话可以找到几个版本,但是在实际使用过程中多少都还会遇到一些问题。事实上,实现数据集的基础功能比较容易,但是如果在使用过程中有一些细节注意不到的话,很可能你后续的实验会白做,这里我也走过一些弯路。大致来说,数据集制作一步到位比较难,因为后续你可能要在多种情况下应用,比如说加噪声、做FFT、维度变换、小波变换、选小样本进行迁移学习等。如果数据集搞不好,可能你的结果就不受控,到时候排查起问题来特别麻烦。
对于数据集的处理,我这里把它分为3个部分详细进行说明。
-
数据的读取
-
数据的分割组合
-
数据的变换
一、数据的读取
数据的读取是第一步,虽然文件的格式是mat,但是用matlab处理其实没有必要。我们直接用python自带的读取函数就可以,以最常见的10分类为例,即取工况1中,1个正常文件,3种尺寸的3种故障。这里很多人直接把1类文件放到一个文件夹里,我的则是分的更细些,把不同分类也用文件夹分开,如图所示。
三种工况
10种分类