【数据挖掘·总复习】第二章-数据预处理||详细整理||知识点+例题+考点||华农期末复习

最新推荐文章于 2024-04-29 13:53:44 发布

bdy_y9

最新推荐文章于 2024-04-29 13:53:44 发布

阅读量3k

点赞数 12

分类专栏： scau 数据挖掘笔记文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_51159944/article/details/120444098

版权

scau 同时被 3 个专栏收录

57 篇文章 6 订阅

订阅专栏

笔记

41 篇文章 1 订阅

订阅专栏

数据挖掘

9 篇文章 3 订阅

订阅专栏

step by step.

a. 分箱【排序 -> 分箱（等宽/等深） -> 平滑（平均值平滑/边界值平滑）】

要看具体章节复习汇总请见👇

【scau数据挖掘·总复习】博客汇总||第一章~第九章+密度聚类_半段烟y9的博客-CSDN博客step by step.目录第二章第三章第四章第五章第六章第七章第八章、第九章、补充知识第二章【数据挖掘·总复习】第二章-数据预处理||详细整理||知识点+例题||考点有_半段烟y9的博客-CSDN博客详细复习资料https://blog.csdn.net/weixin_51159944/article/details/120444098第三章【数据挖掘·总复习】第三章-关联规则挖掘||Apriori||详细整理||知识点+例题||考点有_半段烟y9的博https://blog.csdn.net/weixin_51159944/article/details/122111501

自己辛苦总结的，点个赞鼓励一下啦~

数据预处理：对原始数据进行必要的清理、集成、转换、离散、规约等一系列处理工作，以达到最低规范和标准。

1、数据预处理目的

现实中数据的缺点：

（1）不完整性

（2）含噪声

（3）杂乱性（不一致性）

处理方法：

（1）数据清理

（2）数据集成

（3）数据变换

（4）数据归约

2、数据清理

（1）填写缺失值

a. 忽略元组（缺了就扔掉了）

b. 人工填写缺失值

c. 使用一个全局变量填充缺失值

d. 用属性的均值填充缺失值

e. 使用最可能的值填充

（2）光滑噪声数据

噪声数据：被测量变量的随机误差或方差。

a. 分箱【排序 -> 分箱（等宽/等深） -> 平滑（平均值平滑/边界值平滑）】

eg. 排序后的数据：61，66，68，73，77，78，85，88，91

1=>等深分箱：每个箱子放“深度”的数据。

（深度为3）61，66，68；

73，77，78；

85，88，91；

1=>等宽分箱：每个箱子的宽度区间一致。

（分成3个箱子）

每个箱子的范围：(91-61)/3 = 10 👉 每个箱子的范围不超过10

61，66，68；

73，77，78；

85，88，91；

🔺 注：虽然结果和等深相同，但其实等宽分箱每个箱的数量可以不同，详见👇

一题搞定等宽分箱_ABCisCOOL的博客-CSDN博客_等宽分箱法题目：使用等宽方法将数据组分为3个箱：5,10,11,13,15,35,50,55,72,92,204,215。得到的结果为________。解析：等宽分箱：每个箱中的数据宽度相同。例如，数据集中最大值是215，最小值是5，分成3个箱，故每个箱的宽度应该为（215-5）/3=70，所以箱的宽度是70，这就要求箱中数据之差不能超过70.，并且要把不超过70的数据全放在一起。所以最后的答案是：...https://blog.csdn.net/ABCisCOOL/article/details/104984747?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164005019116780271575186%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=164005019116780271575186&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-1-104984747.first_rank_v2_pc_rank_v29&utm_term=%E7%AD%89%E5%AE%BD%E5%88%86%E7%AE%B1&spm=1018.2226.3001.4187

2=>平均值平滑技术：用均值代替所有。

65，65，65；

76，76，76；

88，88，88；

2=>边界值平滑技术：向下靠拢or向上靠拢。

61，68，68；

73，78，78；

85，85，91；

练习题

假设12个销售价格记录已经排序：

5，10，11，13，15，35，50，55，72，92，204，215

使用如下方法把它们划分成三个箱。

（a）等深划分。

（b）等宽划分。

解：

👆

自己做的，如果有错欢迎来纠正。

b. 回归

eg。

´某产品若干不同月份总成本y(单位万元)和总产量x（单位百个）的数据如下：

´现在某一月的总产量为1.9万元，但总成本数据记录为2.1。已知数据的记录可能存在错误，现是否可以认为这个月的总成本数据就是错误数据？如果是，该如何光滑这一月的成本数据？

解：

´散点图如右图，由图见x和y存在比较显然的线性关系，可以使用线性回归

求得回归直线方程y=1.216x+0.973

´点（1.9，2.1）偏离直线过远，故该数据很可能存在问题

´直线方程带入x=1.9，得到3.283

👇