数据挖掘概论

最近学习数据挖掘,记录一下数据挖掘概述,便于指导以后的学习方向。

数据挖掘的过程

1.数据预处理(至关重要,数据的质量决定挖掘的质量)

数据预处理包括数据整合、数据清洗、数据转化和数据约简。

一、数据整合:收集要分析的数据进行模式整合组成一个新的数据仓库。(具体什么方法还有待学习,可能是爬虫?)

数据整合的问题:数据来源五花八门,如何收集不同数据源的数据?收集到的数据又未必一致,而且还可能存在冗余(比如,搜集到的人身高信息,180cm和1.8m,单位不统一。另外还可能存在冗余,比如人的身高信息属性名称是userHigh和userLength,怎么把识别两者合并成同一属性列)还存在等等一系列问题。

二、数据清洗:解决数据整合出现的这些问题

源数据存在的问题可能有三种

 解决办法:对于遗失数据,可以忽略遗失数据的元组、手动添加遗失数据、使用全局变量填充“unknown”、填充平均值、猜测值等。对于噪声数据可以采用装箱、聚类、回归分析、人机结合。对于不一致数据,可以采用参考外部资料的方法(比如查纸质资料等。)其中装箱、聚类、回归分析都会在之后介绍。

三、数据转化和约简

其实以上对数据装箱、聚类都算是数据转化,此外还有对数据规范化(方法稍后介绍)。

数据约简是为了减少没必要的数据,只把和要分析相关的数据用来挖掘。方法有:数据方聚集、降维、数据压缩、数值压缩、离散化、分层等。这些具体的方法稍后会介绍。

  • 遗失数据:有的感兴趣信息不可用(女性顾客年龄),输入遗漏,根本没有提供(比如我们填信息时,有的是选填)
  • 噪声数据:测量的数据不准确(比如测量风速时,突然设备失灵一下,一组数据中,就会有一个异常值)
  • 不一致性数据:搜集到的人身高信息,180cm和1.8m,单位不统一。比如人的身高信息属性名称是userHigh和userLength。

2.挖掘信息阶段

频繁模式挖掘和相关性挖掘是常见的挖掘需求。频繁模式挖掘有Apriori算法、AprioriTid算法、FP-Growth算法等。相关性挖掘方法(待学习)。

另外,挖掘算法还有分类、聚合两大类。分类算法有决策树、朴素贝叶斯分类、支持向量机等。聚合算法有基于划分的k-means和k-median、分层方法、基于密度的方法、基于网格的方法等。

3.评估和使用结果

这个要根据不同的挖掘结果和使用情况来判断挖掘是否有效。

相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页