数据挖掘概论

最近学习数据挖掘,记录一下数据挖掘概述,便于指导以后的学习方向。

数据挖掘的过程

1.数据预处理(至关重要,数据的质量决定挖掘的质量)

数据预处理包括数据整合、数据清洗、数据转化和数据约简。

一、数据整合:收集要分析的数据进行模式整合组成一个新的数据仓库。(具体什么方法还有待学习,可能是爬虫?)

数据整合的问题:数据来源五花八门,如何收集不同数据源的数据?收集到的数据又未必一致,而且还可能存在冗余(比如,搜集到的人身高信息,180cm和1.8m,单位不统一。另外还可能存在冗余,比如人的身高信息属性名称是userHigh和userLength,怎么把识别两者合并成同一属性列)还存在等等一系列问题。

二、数据清洗:解决数据整合出现的这些问题

源数据存在的问题可能有三种

 解决办法:对于遗失数据,可以忽略遗失数据的元组、手动添加遗失数据、使用全局变量填充“unknown”、填充平均值、猜测值等。对于噪声数据可以采用装箱、聚类、回归分析、人机结合。对于不一致数据,可以采用参考外部资料的方法(比如查纸质资料等。)其中装箱、聚类、回归分析都会在之后介绍。

三、数据转化和约简

其实以上对数据装箱、聚类都算是数据转化,此外还有对数据规范化(方法稍后介绍)。

数据约简是为了减少没必要的数据,只把和要分析相关的数据用来挖掘。方法有:数据方聚集、降维、数据压缩、数值压缩、离散化、分层等。这些具体的方法稍后会介绍。

  • 遗失数据:有的感兴趣信息不可用(女性顾客年龄),输入遗漏,根本没有提供(比如我们填信息时,有的是选填)
  • 噪声数据:测量的数据不准确(比如测量风速时,突然设备失灵一下,一组数据中,就会有一个异常值)
  • 不一致性数据:搜集到的人身高信息,180cm和1.8m,单位不统一。比如人的身高信息属性名称是userHigh和userLength。

2.挖掘信息阶段

频繁模式挖掘和相关性挖掘是常见的挖掘需求。频繁模式挖掘有Apriori算法、AprioriTid算法、FP-Growth算法等。相关性挖掘方法(待学习)。

另外,挖掘算法还有分类、聚合两大类。分类算法有决策树、朴素贝叶斯分类、支持向量机等。聚合算法有基于划分的k-means和k-median、分层方法、基于密度的方法、基于网格的方法等。

3.评估和使用结果

这个要根据不同的挖掘结果和使用情况来判断挖掘是否有效。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值