1.无量纲化
无量纲化以我个人的理解,就是指在两个特征的单位不一样,其数值在大小上不是一个数量级,但是不能只凭数值的大小来决定两个特征谁的影响大,需要将两个特征归一到同一可比的范围内,来决定谁的影响范围。
常见的无量纲化有 min-max归一化和z-score标准化
(1)min-max归一化
min-max归一化是指对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化,与z-score标准化有本质区别。min-max的公式如下所示,
x’为归一化后的变量,x为原始数据,xmin为原始数据样本中的最小值,xmax为原始数据样本中的最大值。
Python实现
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
x = np.array([[1,-1,2],