一
数据样本矩阵: 一行一样本,一列一特征。
1.解决机器学习问题的科学计算工具包
import sklearn.preprocessing as sp
二 数据预处理
均值移除
由于一个样本的不同特征值差异较大,不利于使用现有机器学习算法进行样本处理。均值移除可以让样本矩阵中的每一列的平均值为0,标准差为1.
范围缩放
将样本矩阵中的每一列的最小值和最大值设定为相同的, 区间,同一各特征值的范围。一般情况下会把特征值缩放至[0, 1]区间。
二值化
有些业务并不需要分析矩阵的i详细完整数据(比如图像边缘识别只需分析出图像边缘即可), 可以根据实现给定的阈值,用0和1表示特征值高于或不高于阈值。二值化后的数组中每个元素非0即1, 达到简化数字模型的目的。