数据挖掘——数据变换

最新推荐文章于 2023-09-15 11:43:20 发布

嚯嚯嚯嚯什么都不会

最新推荐文章于 2023-09-15 11:43:20 发布

阅读量1.8k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/weixin_45902007/article/details/111344871

版权

数据变换：

1、数据变换在数据分析中的角色：
让不同渠道的数据统一到一个目标数据库中；
2、数据变换所处环节：
3、数据变换的方法：

数据平滑：去除数据中的噪声，将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑，我会在后面给你讲解聚类和回归这两个算法；
数据聚集：对数据进行汇总，在 SQL 中有一些聚集函数可以供我们操作，比如 Max() 反馈某个字段的数值最大值，Sum() 返回某个字段的数值总和；
数据概化：将数据由较低的概念抽象成为较高的概念，减少数据复杂度，即用更高的概念替代更低的概念。比如说上海、杭州、深圳、北京可以概化为中国。
数据规范化：使属性数据按比例缩放，这样就将原来的数值映射到一个新的特定区域中。常用的方法有最小—最大规范化、Z—score 规范化、按小数定标规范化等，我会在后面给你讲到这些方法的使用；
属性构造：构造出新的属性并添加到属性集中。这里会用到特征工程的知识，因为通过属性与属性的连接构造新的属性，其实就是特征工程。比如说，数据表中统计每个人的英语、语文和数学成绩，你可以构造一个“总和”这个属性，来作为新属性。这样“总和”这个属性就可以用到后续的数据挖掘计算中。

其中最常用的是数据规范化，包括最小—最大规范化、Z—score 规范化、按小数定标规范化等；

数据规范化的几种方法

1、Min-max 规范化
Min-max 规范化方法是将原始数据变换到[0,1]的空间中。
公式表示就是：新数值 =（原数值 - 极小值）/（极大值 - 极小值）。

#Min-max规范化 
#coding:utf-8
from sklearn import preprocessing
import numpy as np
#初始化数据，每一行表示一个样本，每一列表示一个特征
x=np.array([[0.,-3.,1.],
            [3.,1.,2.],
            [0.,1.,-1