初识数据挖掘
1 初识数据挖掘
随着社会的发展,各行各业都建立起了各自的数据库体系,如何对这些数据实现最大化利用是很值得研究的问题,由此数据挖掘技术应运而生,个人理解的数据挖掘就是从大量的数据中发现数据背后潜在的有用价值。
数据的产生和收集技术一直在不断提升,海量数据集随之增加,同时呢,高维数据也愈加普遍。由此要求数据挖掘算法必须具有可伸缩性,除此也要适应高维性。
可想而知,数据挖掘的发展必将面临各种挑战,所以数据挖掘融合了统计学的抽样、估计和假设检验;人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论等各个领域的思想。
2 数据挖掘的任务
(1)分类
a. 预测任务:根据其他属性的值来预测特定属性的值;
b. 描述任务:发现数据中潜在的模式。
(2)主要任务
a. 预测建模:常用的有分类和回归,分类用来预测离散的目标变量,而回归用来预测连续的目标变量。预测建模可以用来预测客户对一个促销活动的反应、预测地球生态系统的扰动等等。
b. 关联分析:用有效的方式提取有用的模式。应用包括找出具有相关功能的基因组、识别用户一起访问的Web页面等等,比如可以根据销售数据发现顾客经常同时购买的商品。
c. 聚类分析:以相似度为基础,通过一定的方法对元素进行聚类,使得处于同簇之间元素最为相似,不同簇元素之间的相似度差别尽可能大。应用包括图像识别等,当然在搜索引擎中也有着举足轻重的地位。
d. 异常检测:发现真正的特征显著不同于其他数据的观测值,在此一定要避免将正常的对象标注为异常点,一个好的异常检测器必须具有高检测率和低误报率。应用包括检测欺诈、疾病的不寻常模式等等。
3 数据的预处理
(1)聚集
将两个或多个对象合并为单个对象。但缺点是很可能丢失有些细节。
(2)抽样
处理所有数据的费用太高,所以采用抽样算法来压缩数据量。但是缺点是会导致信息损失,因此在抽样的过程中确定适当的样本容量很重要。
(3)维归约
维归约的优势如下:
. 维归约使得维度(即元素的属性)降低,使得数据挖掘的效果会更好;
. 使得模型更易理解;
. 使数据更容易可视化。
维归约常用线性代数技术,将数据从高维空间投影到低维空间。其中最常用的是主成分分析法(PCA),找到新属性(原属性的线性组合),并且保证新属性是相互正交的。奇异值分解也可以用于维归约。
(4)特征子集的选择
除去冗余或不相关的特征,进而仅使用特征的一个子集来表示。虽然看起来是会丢失一部分信息,但事实并非如此,冗余和不相关的特征对结果并没有太大的意义。
特征子集选择的标准方法有:嵌入、过滤和包装。其中过滤和包装所不同的是评估的方法不同,嵌入方法是与具体的算法有关。
特征选择的过程可以看作由四部分构成:子集的评估度量、控制新的特征子集产生策略、停止搜索判断和检验过程。
特征加权是特征选择的办法,是根据特征的重要性分别对不同的特征赋予一定的权值。
(5)特征创建
根据已知的属性创建新的属性,从而能更有效的捕获到有用的信息,主要包括以下几点:
. 特征提取
.映射数据到新的空间。比如对于时间序列,通过傅里叶变换产生属性与频率有关的新数据对象;
.特征构造:当前的信息不适合数据挖掘算法时,构造有用的新特征。
(6)离散化和二元化
(7)变量转换:可以对数据进行规范化或标准化。
4 数据挖掘与机器学习以及模式识别的区别与联系
就它们的本质而言,数据挖掘重在发现,而模式识别重在认识,机器学习是方法,模式识别是目的。机器学习和模式识别都可以作为数据挖掘的工具。
机器学习指的是具体的算法,并能预测性能更好的算法。而数据挖掘则还包括建立和维护数据库、数据清洗、数据可视化以及结果的使用,同时呢,要综合运用到各领域的知识。