数据挖掘
对数据挖掘技术进行支持的三种基础技术已经发展成熟,它们是 海量数据搜集、强大的多处理器计算机和数据挖掘算法。
从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:
- 数据源必须是真实的、大量的、含噪声的;
- 发现的是用户感兴趣的知识;
- 发现的知识要可接受、可理解、可运用;
- 并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
ps : 数据中存在着错误或异常 (偏离期望值)的数据,即为 噪声 。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。
聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该批次相似,而属于不同组的样本应该足够不相似。
订阅专栏 解锁全文
2860

被折叠的 条评论
为什么被折叠?



