【数据挖掘·总复习】第二章-数据预处理||详细整理||知识点+例题+考点||华农期末复习

41 篇文章 1 订阅
9 篇文章 3 订阅

step by step.

目录

1、 数据预处理目的

  现实中数据的缺点:

  处理方法:

2、 数据清理

(1) 填写缺失值

(2) 光滑噪声数据

   a. 分箱   【 排序 -> 分箱(等宽/等深) -> 平滑(平均值平滑/边界值平滑)】

练习题

   b. 回归

   c. 聚类

(3) 数据清理过程

3、 数据集成和数据变换

(1) 数据集成

(2) 数据变换

    规范化方法:

练习题

(3) 数据归约


要看具体章节复习汇总请见👇

【scau数据挖掘·总复习】博客汇总||第一章~第九章+密度聚类_半段烟y9的博客-CSDN博客step by step.目录第二章第三章第四章第五章第六章第七章第八章、第九章、补充知识第二章【数据挖掘·总复习】第二章-数据预处理||详细整理||知识点+例题||考点有_半段烟y9的博客-CSDN博客详细复习资料https://blog.csdn.net/weixin_51159944/article/details/120444098第三章【数据挖掘·总复习】第三章-关联规则挖掘||Apriori||详细整理||知识点+例题||考点有_半段烟y9的博https://blog.csdn.net/weixin_51159944/article/details/122111501

自己辛苦总结的,点个赞鼓励一下啦~


数据预处理:对原始数据进行必要的清理、集成、转换、离散、规约等一系列处理工作,以达到最低规范和标准。

1、 数据预处理目的

  现实中数据的缺点:

(1) 不完整性

(2) 含噪声

(3) 杂乱性(不一致性)

  处理方法:

(1) 数据清理

(2) 数据集成

(3) 数据变换

(4) 数据归约

2、 数据清理

(1) 填写缺失值

   a. 忽略元组(缺了就扔掉了)

   b. 人工填写缺失值

   c. 使用一个全局变量填充缺失值

   d. 用属性的均值填充缺失值

   e. 使用最可能的值填充

(2) 光滑噪声数据

噪声数据:被测量变量的随机误差或方差。 

   a. 分箱   【 排序 -> 分箱(等宽/等深) -> 平滑(平均值平滑/边界值平滑)

eg. 排序后的数据:61,66,68,73,77,78,85,88,91

      1=>等深分箱:每个箱子放“深度”的数据。

(深度为3)61,66,68;

73,77,78;

85,88,91;

      1=>等宽分箱:每个箱子的宽度区间一致。

(分成3个箱子)

每个箱子的范围:(91-61)/3 = 10 👉 每个箱子的范围不超过10

61,66,68;

73,77,78;

85,88,91;

🔺 注:虽然结果和等深相同,但其实等宽分箱每个箱的数量可以不同,详见👇

一题搞定等宽分箱_ABCisCOOL的博客-CSDN博客_等宽分箱法题目:使用等宽方法将数据组分为3个箱:5,10,11,13,15,35,50,55,72,92,204,215。得到的结果为________。解析:等宽分箱:每个箱中的数据宽度相同。例如,数据集中最大值是215,最小值是5,分成3个箱,故每个箱的宽度应该为(215-5)/3=70,所以箱的宽度是70,这就要求箱中数据之差不能超过70.,并且要把不超过70的数据全放在一起。所以最后的答案是:...https://blog.csdn.net/ABCisCOOL/article/details/104984747?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164005019116780271575186%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=164005019116780271575186&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_click~default-1-104984747.first_rank_v2_pc_rank_v29&utm_term=%E7%AD%89%E5%AE%BD%E5%88%86%E7%AE%B1&spm=1018.2226.3001.4187

      2=>平均值平滑技术:用均值代替所有。

65,65,65;

76,76,76;

88,88,88;

      2=>边界值平滑技术:向下靠拢or向上靠拢。

61,68,68;

73,78,78;

85,85,91;

练习题

 假设12个销售价格记录已经排序:

5,10,11,13,15,35,50,55,72,92,204,215

使用如下方法把它们划分成三个箱。

(a)等深划分。

(b)等宽划分。

解:

👆

自己做的,如果有错欢迎来纠正。 

   b. 回归

eg。

´某产品若干不同月份总成本y(单位万元)和总产量x(单位百个)的数据如下: 

 ´现在某一月的总产量为1.9万元,但总成本数据记录为2.1。已知数据的记录可能存在错误,现是否可以认为这个月的总成本数据就是错误数据?如果是,该如何光滑这一月的成本数据?

解:

´散点图如右图,由图见xy存在比较显然的线性关系,可以使用线性回归

 求得回归直线方程y=1.216x+0.973

´点(1.92.1)偏离直线过远,故该数据很可能存在问题

´直线方程带入x=1.9,得到3.283

👇

   c. 聚类

(3) 数据清理过程

a. 偏差检测

b. 偏差纠正

3、 数据集成和数据变换

(1) 数据集成

    数据集成问题:

    a. 模式集成和对象匹配问题

        eg。看数据库里的两个属性是否是相同的属性👈通过观察元数据

    b. 冗余问题 -> 相关度

       冗余:一个属性能否有另一个属性导出。

       相关度公式:P20.(连续数据:皮尔逊相关系数R 离散数据:卡方检验

🔺注:卡方检测假设A和B是相互独立的 

例。

性别与化妆与否是否相关?

解。

 高度相关。

 ∴去冗余

    c. 数据值冲突的检测与处理

(2) 数据变换

光滑->聚集->数据泛化->规范化

    规范化方法:

🔺必考噢👇

(a) 最小-最大规范化

    值域:[new_min, new_max]

 

 根据比例映射做还挺好理解的 👇

8000 ———— 14000

[0 ———— 1]

(b) z-score规范化

   值域:[(min-均值)/标准差, (max-均值)/标准差]

 零均值规范化之后,数据的均值是0,标准差是1 👈 理解! 

(c) 小数定标规范化

   值域:[-1,1]

(d) 属性构造

练习题

1. 使用以下方法规范化以下数据组:

200,300,400,600,1000

(a) 令min=0,max=1,最小-最大规范化。

(b) z分数规范化。

(c)z分数规范化(使用均值绝对偏差)。

(d)小数定标化 

解:

👆

自己做的,如果有错欢迎来纠正。 

(3) 数据归约

方法包括:数据立方体聚集、维归约、数据压缩、数值规约以及数据离散化与概念分层。

 

 

  • 12
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值