数据集成:
多个数据源结合在一起形成统一数据集
①模式集成问题
②冗余问题
③数据值冲突检测与消除问题
数据转换:
将数据进行转换或归并,从而构成合适的数据处理形式
数据转化策略:
①平滑处理:去掉数据中的噪声
1.分箱【平均值和边界】
2.回归
3.聚类(内间最大化 内类最小化)
②聚集处理
③数据泛化处理
④规范化处理
⑤属性构造处理
数据规范化处理:
min-max规范化 z-score规范化
小数定标规范化
数据脱敏原则及方法:
脱敏方法:
数据替换 无效化 随机化
偏移与取整 掩码屏蔽 灵活编码