数据挖掘概论

最新推荐文章于 2023-10-10 19:56:49 发布

要做了不起的人Zzzcg

最新推荐文章于 2023-10-10 19:56:49 发布

阅读量2.3k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcg_741454897/article/details/84341184

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近学习数据挖掘，记录一下数据挖掘概述，便于指导以后的学习方向。

数据挖掘的过程

1.数据预处理（至关重要，数据的质量决定挖掘的质量）

数据预处理包括数据整合、数据清洗、数据转化和数据约简。

一、数据整合：收集要分析的数据进行模式整合组成一个新的数据仓库。（具体什么方法还有待学习，可能是爬虫？）

数据整合的问题：数据来源五花八门，如何收集不同数据源的数据？收集到的数据又未必一致，而且还可能存在冗余（比如，搜集到的人身高信息，180cm和1.8m，单位不统一。另外还可能存在冗余，比如人的身高信息属性名称是userHigh和userLength，怎么把识别两者合并成同一属性列）还存在等等一系列问题。

二、数据清洗：解决数据整合出现的这些问题

源数据存在的问题可能有三种

解决办法：对于遗失数据，可以忽略遗失数据的元组、手动添加遗失数据、使用全局变量填充“unknown”、填充平均值、猜测值等。对于噪声数据可以采用装箱、聚类、回归分析、人机结合。对于不一致数据，可以采用参考外部资料的方法（比如查纸质资料等。）其中装箱、聚类、回归分析都会在之后介绍。

三、数据转化和约简

其实以上对数据装箱、聚类都算是数据转化，此外还有对数据规范化（方法稍后介绍）。

数据约简是为了减少没必要的数据，只把和要分析相关的数据用来挖掘。方法有：数据方聚集、降维、数据压缩、数值压缩、离散化、分层等。这些具体的方法稍后会介绍。

遗失数据：有的感兴趣信息不可用（女性顾客年龄），输入遗漏，根本没有提供（比如我们填信息时，有的是选填）
噪声数据：测量的数据不准确（比如测量风速时，突然设备失灵一下，一组数据中，就会有一个异常值）
不一致性数据：搜集到的人身高信息，180cm和1.8m，单位不统一。比如人的身高信息属性名称是userHigh和userLength。

2.挖掘信息阶段

频繁模式挖掘和相关性挖掘是常见的挖掘需求。频繁模式挖掘有Apriori算法、AprioriTid算法、FP-Growth算法等。相关性挖掘方法（待学习）。

另外，挖掘算法还有分类、聚合两大类。分类算法有决策树、朴素贝叶斯分类、支持向量机等。聚合算法有基于划分的k-means和k-median、分层方法、基于密度的方法、基于网格的方法等。

3.评估和使用结果

这个要根据不同的挖掘结果和使用情况来判断挖掘是否有效。

要做了不起的人Zzzcg

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。