1.数据类型
(1)数值型
● 连续型:利用实数表示属性
● 离散型:利用整数表示属性
(2)标称型
● 0-1型:预先定义一个类别,若记录属于该类别则为1,否则为0
● 多值标称型:预先定义一个类别集合,用类别集合中的一个或多个来描述样本
(3)序列型:有序的数值型或标称型值串
(4)序数型:具有偏序关系的离散数值
2.数据清洗
(1)噪声数据
● 平滑
● 装箱
(2)缺失数据
● 均值/众数/中位数补全
● 启发式补全
(3)相关性计算
● 皮尔逊相关系数
● 斯皮尔曼相关系数
● 互信息
3.数据转换
(1)数据离散化
● 等频装箱
● 等宽装箱
(2)数据数值化
● One-Hot编码
● 排序编码
(3)数据归一化
● 最大最小归一化
● Z-SCORE归一化
参考链接:https://blog.csdn.net/yuxiao_v/article/details/79414022