step by step.
目录
a. 分箱 【 排序 -> 分箱(等宽/等深) -> 平滑(平均值平滑/边界值平滑)】
要看具体章节复习汇总请见👇
自己辛苦总结的,点个赞鼓励一下啦~
数据预处理:对原始数据进行必要的清理、集成、转换、离散、规约等一系列处理工作,以达到最低规范和标准。
1、 数据预处理目的
现实中数据的缺点:
(1) 不完整性
(2) 含噪声
(3) 杂乱性(不一致性)
处理方法:
(1) 数据清理
(2) 数据集成
(3) 数据变换
(4) 数据归约
2、 数据清理
(1) 填写缺失值
a. 忽略元组(缺了就扔掉了)
b. 人工填写缺失值
c. 使用一个全局变量填充缺失值
d. 用属性的均值填充缺失值
e. 使用最可能的值填充
(2) 光滑噪声数据
噪声数据:被测量变量的随机误差或方差。
a. 分箱 【 排序 -> 分箱(等宽/等深) -> 平滑(平均值平滑/边界值平滑)】
eg. 排序后的数据:61,66,68,73,77,78,85,88,91
1=>等深分箱:每个箱子放“深度”的数据。
(深度为3)61,66,68;
73,77,78;
85,88,91;
1=>等宽分箱:每个箱子的宽度区间一致。
(分成3个箱子)
每个箱子的范围:(91-61)/3 = 10 👉 每个箱子的范围不超过10
61,66,68;
73,77,78;
85,88,91;
🔺 注:虽然结果和等深相同,但其实等宽分箱每个箱的数量可以不同,详见👇
2=>平均值平滑技术:用均值代替所有。
65,65,65;
76,76,76;
88,88,88;
2=>边界值平滑技术:向下靠拢or向上靠拢。
61,68,68;
73,78,78;
85,85,91;
练习题
假设12个销售价格记录已经排序:
5,10,11,13,15,35,50,55,72,92,204,215
使用如下方法把它们划分成三个箱。
(a)等深划分。
(b)等宽划分。
解:
👆
自己做的,如果有错欢迎来纠正。
b. 回归
eg。
´某产品若干不同月份总成本y(单位万元)和总产量x(单位百个)的数据如下:
´现在某一月的总产量为1.9万元,但总成本数据记录为2.1。已知数据的记录可能存在错误,现是否可以认为这个月的总成本数据就是错误数据?如果是,该如何光滑这一月的成本数据?
解:
´散点图如右图,由图见x和y存在比较显然的线性关系,可以使用线性回归
求得回归直线方程y=1.216x+0.973
´点(1.9,2.1)偏离直线过远,故该数据很可能存在问题
´直线方程带入x=1.9,得到3.283
👇
![]()
c. 聚类
(3) 数据清理过程
a. 偏差检测
b. 偏差纠正
3、 数据集成和数据变换
(1) 数据集成
数据集成问题:
a. 模式集成和对象匹配问题
eg。看数据库里的两个属性是否是相同的属性👈通过观察元数据
b. 冗余问题 -> 相关度
冗余:一个属性能否有另一个属性导出。
相关度公式:P20.(连续数据:皮尔逊相关系数R 离散数据:卡方检验)
🔺注:卡方检测假设A和B是相互独立的
例。
性别与化妆与否是否相关?
解。
高度相关。
∴去冗余
c. 数据值冲突的检测与处理
(2) 数据变换
光滑->聚集->数据泛化->规范化
规范化方法:
🔺必考噢👇
(a) 最小-最大规范化
值域:[new_min, new_max]
根据比例映射做还挺好理解的 👇
8000 ———— 14000
↓
[0 ———— 1]
(b) z-score规范化
值域:[(min-均值)/标准差, (max-均值)/标准差]
零均值规范化之后,数据的均值是0,标准差是1 👈 理解!
(c) 小数定标规范化
值域:[-1,1]
(d) 属性构造
练习题
1. 使用以下方法规范化以下数据组:
200,300,400,600,1000
(a) 令min=0,max=1,最小-最大规范化。
(b) z分数规范化。
(c)z分数规范化(使用均值绝对偏差)。
(d)小数定标化
解:
👆
自己做的,如果有错欢迎来纠正。
(3) 数据归约
方法包括:数据立方体聚集、维归约、数据压缩、数值规约以及数据离散化与概念分层。