数据挖掘-概念

概念

加权算术均值:
这里写图片描述

众数:集合中出现最频繁的值。一般具有两个或更多众数的数据集是多峰(multimodal)的。

中列数:是数据集的最大值和最小值得平均值。可以用min()和max()计算。

这里写图片描述

极差: 数据最大值与最小值之差

四分位:
这里写图片描述

四分位极差(IQR): IQR=Q3-Q1

五数概括:由中位数Q2,四分位数Q1和Q3,最小和最大观测值组成。

这里写图片描述

方差与标准差

方差与标准差都是数据散步度量,它们支出数据分布的散布程度。低标准差意味着数据趋近于均值,而高标准差表示数据散步在一个大的值域中
这里写图片描述这里写图片描述

数据清理(data cleaning):通过填写缺失的值,光滑噪声数据,识别或者删除离群点,并解决不一致来清理数据。 如同一概念的字段在不同的表中命名不同。

数据集成(data integration): 多个数据库中的数据集中起来

数据规约(data reduction):数据集是巨大的,为了降低数据集的规模而不损害数据挖掘的结果,数据规约得到数据集的简化表示,它小的多,但几乎能产生同样的分析结果。数据规约策略包括维规约和数值规约。

维规约:使用数据编码方案,一遍得到原始数据的简化或者压缩表示。包括数据压缩技术(如小波变化和主成分分析),以及属性子集选择(如去掉不相关的属性)和属性构造(从原来的属性集导出更有用的小属性集)

数值归约,使用参数模型(如回归和对数线性模型)或非线性模型(直方图、聚类、抽样或者数据聚集)用较小的表示取代数据。

数据变换(Data transformation):规范化、离散化和概念分层产生都是某种形式的数据变换。

这里写图片描述

噪声,是被测量的变量的随机误差或者方差

ETL工具(extraction/Transformation/loading)提取变换装入工具

Potter’s Wheel是一种公开的数据清理工具,集成了偏差检测和数据变换

偏差检测和数据变换

有些冗余会被相关分析检测到。对于标称数据,我们使用卡方检测(x2), 对于数值属相,使用相关系数和协方差,他们都是评估一个属性如何随另一个变化

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值