数据挖掘导论(完整版)阅读笔记--第一章
了解数据挖掘
一、什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。
这部分的重点在于区别:数据挖掘技术和其他信息检索任务
例如:根据可赢利性划分公司客户
答案:这不是数据挖掘任务,这是一个会计计算。但是,预测新客户的赢利能力是数据挖掘。
二、了解KDD
数据库中知识发现(knowledge discovery in database,KDD)是将未加工的数据转换成有用信息的过程。
三、数据挖掘要解决的问题(了解即可)
1.可伸缩: 由于数据产生和收集技术的进步,数据挖掘算法常常需要处理海量数据集,则算法必须是可伸缩的(scalabie)。为实现可伸缩还有可能实现新的数据结构。
2.高维性: 现在常常会遇到具有成百上千属性的数据集。
3.异种数据和复杂数据&#