软考笔记--数据挖掘技术

数据挖掘技术是采用数学的、统计的,人工智能和神经网络等领域的科学方法,从大量数据中挖掘隐含的、先前未知的,对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,为商业智能系统服务的各个业务领域提供预测性决策支持的方法、工具和过程。

一.数据挖掘概念

数据挖掘与传统的数据分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。 

1.数据挖掘的体系结构

(1)知识发现系统管理器。控制并管理知识发现过程,录入知识库的信息用于驱动数据选择过程,抽取算法选择,以及实用过程和发现评价过程。

(2)知识库。知识库包含源于多方面的必须的信息,可以将元数据传入数据仓库中,以描述数据仓库的数据结构,输入关键数据属性规则和数据层次等。

(3)数据访问接口。知识发现系统利用数据库的查询机制从数据仓库中提取数据,可使用SQL查询语言,结合知识库中的数据仓库元数据,指导从数据仓库中提取需要的数据。

(4)数据选择。确定从数据仓库需要抽取的数据及其结构。

(5)知识发现引擎。将知识库中的抽取算法提供给抽取的数据,目的是要抽取数据元素之间的模式和关系。

(6)发现评价。分析员要寻找关注性的数据模式,选出那些关注性信息。

(7)发现描述。发现描述部分提供两种功能,一种是以发现评价辅助分析员在知识库保存发现的信息,以备将来引用和使能;另一种是保持发现与决策者的通信。

2.数据挖掘的流程。

数据挖掘是一个完整的过程,改过程从大型数据库中挖掘先前未知的,有效的可实用的信息,并将这些信息做出决策或丰富知识。数据挖掘的流程大致如下:

(1)问题定义。在开始数据挖掘之前最先也是最重要的要求就是熟悉背景知识,弄清用户需求。

(2)建立数据挖掘库。要进行数据挖掘必须手机要挖掘的数据资源,一般需要将要挖掘的数据都集中到一个数据库中,而不是采用原有的数据库或者数据仓库。

(3)分析数据。分析数据是对数据深入调查的过程。从数据集中找出规律和趋势,用聚类分析区分类别,理清多因素相互影响的,十分复杂的关系,发现诸因素之间的相关性。

(4)调整数据。通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时,要尽可能对问题解决的要求做进一步明明确化和量化。针对问题的需求对数据进行曾删,按照对整个数据挖掘过程的新认识组合或生成一个新的变量,以提现对状态的有效描述。

(5)模型化。在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型。这一步数数据挖掘的核心环节,一般用户神经网络,决策树和梳理统计等方法来建立模型。

(6)评价和解释。所得到的模型有可能是没有实际意义或没有实用价值的,也可能是其不能明确反映数据的真实意义,因此需要评估和确定哪些是有效的有用的模式。

数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程。这一过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优选问题的解决方案。

二.常用技术与方法

从技术上来看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的实际应用数据中,提取隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层的含义:数据源是必须真是的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解,可运用。

从商业角度来看,数据挖掘是一种新的商业信息处理技术,主要特点是对商业数据库中的大量业务数据进行抽取,转换,分析和其他模型化处理,从中提取辅助商业决策的关键数据。

1.数据挖掘的常用技术

数据挖掘中的关键技术是进行模式和关系识别的算法。

(1)决策树方法。决策树方法利用信息论中的互信息寻找数据库中具有最大信息量的属性,建立决策树的一个节点,再根据属性的不同取值建立树的分支。

(2)分类方法。分类方法将数据按照含义划分组,可用该方法生成感兴趣的侧面,客用户自动发现类。

(3)粗糙集方法。粗糙集的研究主要基于分类。分类和概念同义,一种类别对应于一个概念。

(4)神经网络。神经网络通过学习待分析数据中的模式来构造模型,它可以对隐式类型进行分析,适用于对非线性的,复杂的或高噪声的数据进行建模。

(5)关联规则。关联规则是指搜索业务系统中所有细节和事物,从中找出重复出现概率很高的模式。用关联找出所有能将一组事件与另一组事件联系起来的规则。

(6)概念树方法。对数据库中记录的属性按归类方式进行抽象,建立起来的层次结构称为概念树。利用概念树提升的方法可以大大浓缩数据库中的记录。

(7)遗传算法。遗传算法是模拟生物进化过程的算法,由繁殖,交叉和变异三个基本算子组成。

(8)依赖性分析。依赖性分析是指数据仓库的条目或对象之间抽取依赖性,它展示了数据之间未知的依赖关系,依赖性是值一个带有置信度因子的可能值,可以用依赖性分析方法从某个数据对象的信息来推断另一个数据对象的信息。

(9)公式发现。在工程和科学数据库中,对若干数据项进行一定的数据运算,求得相应的数学公式。

(10)统计分析方法。在数据库属性之间通常存在两种关系,分别是函数关系和相关关系。

(11)模糊论方法。利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊性是客观存在的,系统的复杂性越高,精确化能力就越低,模糊性越强。

(12)可视化分析。可视化分析可给出带有多变量的图形化分析数据,帮助用户进行分析。

2.数据挖掘的分析方法

从功能上可划分六种,即关联分析,序列分析,分类分析,聚类分析,预测和时间序列分析。

(1)关联分析。关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。

(2)序列分析。序列分析主要用于发现一定时间间隔内连接发生的事件,这些事件构成一个序列,发现的序列应用具有普遍意义,其依据除了统计上的概率之外,还要加上时间的约束。

(3)分类分析,分类分析通过分析具有类别的样本特点,得到决定样本属于各种类别的规则或方法。

(4)聚类分析。聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并对每个这样的组进行描述的过程。

(5)预测方法。预测方法与分类分析相似,但预测是根据样本的已知特征估算某个连续类型的变量的取值过程,而分类则只是用于判别样本所属的离散类别而已。

(6)时间序列分析。时间序列分析是随时间变化而变化的时间序列,目的是预测未来发展趋势,或者寻找相似发展模式,或者发现周期性的发展规律。

 

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赤露水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值