1、数据归一化(normalization)
举个例子,例如下图所示的判断是否为恶性肿瘤的数据中,有两个特征,分别为肿瘤大小和肿瘤发现的时间,如果按照KNN算法中需要计算两个数据之间的欧拉距离,则发现时间的差的平方将远远大于肿瘤大小的差的平方,因此样本间的距离被“发现时间”所主导。
如果不进行数据归一化,则计算结果很可能被其中一个特征所主导
(1)最值归一化:把所有数据都映射到0-1之间
举个例子,例如下图所示的判断是否为恶性肿瘤的数据中,有两个特征,分别为肿瘤大小和肿瘤发现的时间,如果按照KNN算法中需要计算两个数据之间的欧拉距离,则发现时间的差的平方将远远大于肿瘤大小的差的平方,因此样本间的距离被“发现时间”所主导。
如果不进行数据归一化,则计算结果很可能被其中一个特征所主导
(1)最值归一化:把所有数据都映射到0-1之间