Pytorch Note22 数据预处理
全部笔记的汇总贴: Pytorch Note 快乐星球
中心化
数据预处理中一个最常见的处理办法就是每个特征维度减去相应的均值实现中心化,这样可以使得数据变成0均值,特别对于一些图像数据,为了方便我们将所有的数据都减去一个相同的值。
标准化
使得数据都变成0均值之后,还需要使用标准化的做法让数据不同的特征维度都有着相同的规模。有两种常用的方法:一种是除以标准差,这样可以使得新数据的分布接近标准高斯分布:还有一种常用的做法就是让每个特征维度的最大值和最小值按照比例缩小到-1~1之间。
如果知道输入不同特征有着不同的规模,那就需要使用标准化的方法让他们处于同一个规模下,这对于机器学习而言非常重要。
我们可以通过下列图看看中心化和标准化处理完数据后的结果
PCA
PCA是一种处理数据的方法,在进行这一步之前,首先要将数据中心化,然后计算数据的协方差矩阵