数据规范化
(1) 最小-最大规范化对原始数据进行线性变换。
zi=xi-xmin/xmax-xmin
其中:zi为指标的标准分数,xi为某镇某指标的指标值,xmax为全部镇中某指标的最大值,xmin为全部镇中某指标的最小
(2) z-score规范化也称零-均值规范化。属性A的值是基于A的平均值与标准差规范化。
公式为:(x-mean(x))/std(x)
(3) 小数定标规范化
通过移动属性值的小数点位置进行规范化,通俗的说就是将属性值除以10的j次幂。
归一化(Normalization)
把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
一般方法是最小-最大规范的方法:
标准化(Standardization)
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,标准化后的数据可正可负,但是一般绝对值不会太大。一般是 z-score规范化方法:(x-mean(x))/std(x)
正则化(Regularization)
在求解最优化问题中,调节拟合程度的,参数一般称为正则项,越大表明欠拟合,越小表明过拟合,推荐中主要用在矩阵分
归一化:
解决影响梯度下降速度问题;
我们在对数据进行分析的时候,往往会遇到单个数据的各个维度量纲不同的情况,比如对房子进行价格预测的线性回归问题中,我们假设房子面积(平方米)、年代(年)和几居室(个)三个因素影响房价,其中一个房子的信息如下:
- 面积(S):150 平方米
- 年代(Y):5 年
假设我们把该问题作为一个逻辑回归问题$y=wx$来求解,使用梯度下降来求解$w$的最优值。
效率比较高的梯度下降方法中,每次下降应该尽可能的往最优点靠近,假设下降距离函数为:
其中$ | \Delta^* | $表示梯度的模,$\lambda$表示步长,如果两个向量的取值范围差别特别大,那么这两个向量的图像会显得很“细长”: |
我们的梯度在寻找最优值的时候,由于图像“细长”,所以要来回找垂直线,两个维度范围相差的越大,梯度下降的越慢,还可能永远无法收敛。
为了解决这个问题,假如我们把所有的数据范围都是用归一化处理在0到1的区间内(也可以是0到10等其他范围,但一般是0到1),如使用以下归一化公式:
我们的图像就会变得更加“正圆”一些:
我们可以很清楚的看到 ,梯度会更加快速的找到最优点。
http://sobuhu.com/ml/2012/12/29/normalization-regularization.html
http://blog.sina.com.cn/s/blog_973bec650101rnap.html