数据挖掘相关知识(本人原创,转载注明)

这是BOSS安排的任务

本人看了很多关于数据挖掘的资料然后写了点

后面还附有一个自己写的SAMPLE

写的不全也肯定理解上有些许错误

望指正

 

简介

数据挖掘(Data Mining),又称数据库知识发现(Knowledge Discovery in Database),是一个从海量数据中找到有效地、有关联的、潜在有用的、最终可理解的数据的过程。

数据挖掘不同于数据索检,数据索检只是从数据库中查询出所需要的,主要依靠数据库的索引、SQL语句的优化、分区表等方法,主要还是依赖传统计算机技术和数据的明显结构来索引查询。而数据挖掘则更多的是一个探索过程,主要是一个从海量数据中找出隐藏在其中的有关联的或特殊关系性数据的过程,在得出结果之前无法预测,而只能从得出的结果来分析和认知隐藏在这些数据之后的现实实体的关系。

历史

随着软硬件技术的提高,信息以爆炸式的速度增长,各个领域都存有海量的数据,而如何利用这些数据创造价值就成了自然的课题,各个领域都期望从过去大量的数据中找出隐藏在其中的有用信息。这些有用信息可以广泛的用于各个领域,尤其是商业领域。这个技术在商业上已经慢慢引进使用,叫做商业智能(Business Intelligence),按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。得出的结果可以为商业决策提供数据依据

现阶段情况

数据挖掘作为一门新兴的技术,其基础是统计学、人工智能(AI)、数据分析、建模技术、模式识别、最优理论、进化计算、数据检索等领域,由此可看出数据挖掘是门综合学科,是综合运用现代新兴技术而产生的一门很具有发展潜力的和现实应用前景的学科

它与传统的数据分析、在线分析处理(OLAP)有着很大的区别,传统数据分析一般只是基于统计学对数据进行常规分析,在线分析处理一般是用于建立假设后的验证工作,你可以设定条件并猜测它可能得到的结果并让OLAP系统帮你验证你所猜测的结果是否正确,可是数据挖掘不仅仅只是进行数据分析,也不是建立假设进行归纳演绎推理并确定结果是否正确,它可以通过挖掘技术探索发现事物之间的内在联系,像是OLAP技术的逆向推理,用来产生我们需要的假设,它超越了归纳的范畴,因为我们可以挖掘看似不合理但是可以被数据和事实证明的关联

数据挖掘流程

数据挖掘过程主要分为四个阶段:确定对象,数据准备、数据挖掘、数据评价

第一步:确定对象

先确定要分析的业务对象,虽然结果不可预测,但是我们必须清楚要分析业务对象的方向,不能盲目进行数据挖掘,不然后期无法明确如何进行对数据的处理,也就根本得不到正确的结果

第二步:数据准备

这个阶段是最重要的阶段,基本上会占用60%--80%的时间,只有建立在详细准确的数据之上,后面的挖掘才不会得出错误的结果,下面会详细介绍数据准备的具体流程:

1.数据收集过滤及录入

数据采集渠道广,数据收集要尽量完全完整,尽量收集内部和外部关于此业务对象的数据。录入的时候要保证数据的准确完整,数据尽量保证在储存在同一处,注意数据的单一性,对于经常变化的数据要注意进行管理,可以引进版本控制机制,让我们使用的数据更精确格式更规范,同时对录入的数据分类编码,提高数据处理效率。输入时还要注意过滤掉明显有偏差甚至错误的数据,没有正确的数据保证就不可能得到正确的结果。

2.数据预处理

预处理基本上是在上步收集好数据的基础上对数据进一步对数据进行处理,此时的数据不只包括刚刚输入的数据,也包括已经存在的数据,对他们可以进行数据清理、数据集成、数据变换、数据规约或者离散化,数据清理主要在于清理掉空值以及删除孤立点,这样可以减小噪声提高得到结果的质量,数据集成是将多个数据库的信息汇总到一个信息源中,整合数据、检测冲突并修正从而提高最终质量,数据变换是将较大数据投影到较小区域,从而减少冗余、提高相关性,数据规约离散化是对普通数据进行压缩使之更容易被处理,离散化对数字型数据尤其有效,通过对上述四种方法的综合应用优化数据

3.数据分析及建模

通过上一步对数据的处理,现在的数据已经是可以直接进行处理的优化后数据,现在就对已有的数据进行分析,将数据转换成一个分析模型,而这个分析模型是针对挖掘算法建立的,建立一个适合挖掘算法的分析模型也是成功的关键之一

第三步:数据挖掘

具体数据挖掘过程设计涉及的知识领域有:

1) 广义知识:对类别特征的概括性描述,从数据的微观特性中发现较高层次的带有普遍性宏观性的能反映同类事物共同性质的知识,是对数据的概括精炼与抽象

2) 关联知识:反映一个事件与另一个事件依赖或者关联的知识,如果发现多项存在关联,就可以依据一项对其他项进行预测,这一般是计算量最大的部分

3) 分类知识:反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识

4) 预测型知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识

5) 偏差型知识:是对差异和极端特例的描述,揭示事物偏离常规的异常现象的知识

这些知识反映了挖掘过程中会遇到的问题以及可以用来解决问题的方法,由以上的知识我们可以得出在挖掘过程中会使用的一些常用的分析方法:

1) 分类:找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其手段是通过使用分类模型来将数据库中的数据项映射到某个给定的类别,最终可以根据不同类的特征来进行分析

2) 回归分析:反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,用于研究他们的趋势特征以及相关关系

3) 聚集:是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小,聚集不同于分类,它不需要依靠分类模型来实现,同样是提取特征来进行数据分析

4) 关联规则:是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系,根据规则可分为,变量类型、抽象层次、数据维度

5) 变化及偏差分析:是一类研究反常实例的知识,用来观察结果对期望的偏差,其目的是寻找观察结果与参照量之间有意义的差别

下面介绍下数据挖掘过程所用算法,当今算法分为六大类,包含十种不同的算法:

1) 分类算法(Classification):包含C4.5kNNNaive BayesCART

2) 聚类算法(Clustering):k-Means

3) 关联分析(Association Analysis):Apriori

4) 统计学习(Statistical Learning):SVMEM

5) 连接挖掘(Link Mining):PageRank

6) 袋装与推进(Bagging and Boosting):AdaBoost

数据挖掘的主要技术:

人工神经网络法、决策树法、遗传算法、统计分析、规则归纳、可视化方法

第四步:数据评价

经过上面的三步,通过对数据的处理分析、适当模型的建立、合适分析方法的选择以及相关算法的使用,我们得出了结果,这时一般会结合可视化技术来展现得到的结果,可视化技术的好处就是将得到的结果直观的展示出来,有助于直接发现具体关联,得到有用知识

数据挖掘的功能及现实应用

数据挖掘大体上有以下功能:

1. 自动预测趋势和行为

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体

2. 关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3. 聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

4. 概念描述

概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

5. 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

数据挖掘的现实应用:

数据挖掘应用十分广泛,一般常见应用在零售、金融、保险、制造、电信、交通、医疗。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(Cross-selling)等市场分析行为,以及客户流失性分析(Churn Analysis)、客户信用记分(Credit Scoring)、欺诈发现(Fraud Detection)等等。比如超级市场通过挖掘销售记录找出顾客偏好的组合,进行新产品推销,采取措施避免顾客流失;制造业对品质管控进行挖掘找出影响质量的因素,减少次品率,提高作业流程的效率;保险公司通过挖掘,预测可能的欺诈交易,减少损失;金融业利用数据挖掘分析市场动向,调整金融战略等等。

数据挖掘的发展前景以及未来前进方向

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。看似广泛,实际应用还远没有普及。报告指出,数据挖掘会成为未来10年内重要的技术之一。而数据挖掘,也已经开始成为一门独立的专业学科。随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。

现在的热点主要包括:网站的数据挖掘Web site data mining生物信息或基因(Bioinformatics/genomics)的数据挖掘及文本的数据挖掘(Textual mining)。而未来前进方向主要集中在以下几个方面:发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化; 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;研究在网络环境下的数据挖掘技术(Web Mining),特别是在因特网上建立DMKDData Mining and Knowledge Discovery服务器,并且与数据库服务器配合,实现Web Mining加强对各种非结构化数据的开采(Data Mining for AudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采

不管怎样,只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。也只有到那时,数据才能够真正成为与物质、能源相媲美的资源,信息时代才会真正到来。

Sample:

通过对生产数据的挖掘发现影响质量的因素,减少次品率,提高材料利用率,降低成本

一.确定研究对象:

某厂产品生产线生产出的产品质量受那些因素影响

二.数据准备:

1) 数据输入阶段:将所有所需数据入库,录入数据时,保证格式、内容的正确、完整,保证数据的单一性,有时有些数据在实时变动,此时可引进版本控制来保证数据的完整性,同时输入数据的时候最好对数据分类。这一步中这个厂所有产线的所有相关信息必须全部入库,并保证数据的完整性和准确性

2) 对现在所有库中的数据进行清理,对于所有库中的空数据、信息不全数据、明显差异(特殊情况应另外研究)、错误数据,实施数据集成和数据变换,将数据从多个数据库中汇总带一个信息源中,并将大量数据进行压缩,从而整合数据、检测冲突、减少冗余、提高数据相关性。特别是数字型数据进行离散化,使之更容易处理

3) 分析处理后的数据,综合运用建模知识和已有数据,建立一个与次品率相关的因素变化的模型

三.数据挖掘:

根据这个次品率相关模型,应该运用统计分析、规则归纳等主要技术,运用关联规则、分类、回归分析等常用的分析方法,使用AprioriNaïve Bayes算法进行计算,最后得出与次品率最相关的是一天中的时间段,凌晨一点到五点是次品率较高的时间段,并且只要经过二号产线一号机台处理的产品次品率比较高。

四.数据评价:

结合可视化技术,将挖掘结果以柱形图、饼图、折线图等常用显示图显示或者以另外样式图像显示,使结果更直观,通过发现的问题,去思考发生的原因并改进。比如:根据上面的得到的结果,可以注意调整晚上开工工人的休息间隔时间,检查二号产线一号机台是否有损坏、是否需要更换机器

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值