什么是数据归一化
数据减去最小值再除以极差(最大值-最小值),会被收敛到【0,1】之间,这个过程就叫做数据归一化。
什么时候需要归一化
当特征数值差异大的时候,数值最大的对计算结果影响比较大,而我们认为特征同等重要的时候,需要对特征归一化处理。即特征等权重。
用preprocessing.MinMaxScaler实现
tip1:通过inverse_transform可以将归一化结果逆转
tip2:使用MinMaxScaler的参数feature_range可以实现将数据归一化到【0,1】以外的范围中
使用Numpy实现归一化
思路是每列减去每列的最小值再除以每列的极差值,用X.max(axis=0)和X.min(axis=0)就可以找到每列的最大值和最小值。
以第2行第一列的值0.5为例,归一化就是先减去这一列的最小值-6,再除以这一列的极差值,极差值就是最大值5减去最小值-6