数据挖掘建模过程

1、定义挖掘目标

针对具体的数据挖掘应用需求,首先要非常清楚:本次的挖掘目标是什么?系统完成后能达到什么样的效果?为此我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的有关情况,熟悉背景知识,弄清客户需求。

2、数据取样

(1)哪些数据源可用,哪些数据与当前挖掘目标相关?

在明确挖掘目标之后,接下来就需要从业务系统中抽取一个与挖掘目标相关的数据子集,而不是动用全部数据。抽取数据的标准,一相关性、二可靠性、三最新性。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能够通过数据筛选,使想要反映的规律性更加突显出来。

(2)如何保证取样数据的质量?

衡量取样数据质量的标准包括:
1)资料完整无缺,各类指标项齐全。
2)数据准确无误,反映的都是正常(不是反常)状态下的水平。
对获取的数据,可以从中再做抽样操作。抽样的方式多种多样,包括:随机抽取、等距抽样、分层抽样、从起始顺序抽样、分类抽样

(3)是否在足够范围内有代表性?

(4)数据样本取多少合适?

(5)如何分类(训练集、验证集、测试集)

3、数据探索

当我们拿到一个数据集后,他是否达到我们原来设想的要求,其中有没有什么明显的规律和趋势,有没有出现从未设想过的数据状态,因素之间有什么相关性,它们可区分成怎样一些类别。这都是首要探索的内容。
一开始们可以先观察众多因素之间的相关性,再按其相关的程度,以了解它们之间的相互作用的情况。这些探索、分析,并没有一成不变的操作规律性,因此要有耐心地反复试探,仔细观察。
另外,可能实际存在着先验知识认为不存在的关系的情况,假如数据是真实可靠的话,那么绝对不要轻易地否定数据呈现的新的关系,很可能这就是发现的新知识。
数据探索的意义:对所抽取的样本数据进行探索、审核和必要的加工处理,是保证预测质量所必需的。可以说,预测的质量不会超过抽取样本的质量。
数据探索主要包括:异常值分析,缺失值分析,相关分析,周期性分析,样本交叉验证等。

4、预处理

预处理需要解决的问题:如何降维处理、缺失值和异常值如何处理。
数据预处理主要包括以下几个内容:

(1)数据筛选

通过数据筛选可以从观测值样本中筛选掉不希望包括进来的观测值,例如:离散变量可以给定某一类排除在抽样范围内。

(2)数据变量转换

将某一个数据进行某种转换操作,然后将转换后的值作为新的变量存放在样本数据中。转换的目的是为了使数据和将来要建立的模型拟合地更好。例如,原来的非线性模型线性化、加强变量的稳定性等。数据变量可进行取幂、对数、开方等转换。当然,也可给定一个公式进行转换。

(3)缺失值处理

对于数据挖掘来说,空值的存在,造成的影响主要有:
1)系统丢失了大量的有用信息。
2)系统中所表现的不确定性更加显著,系统中蕴涵的确定性成分更难把握;
3)包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
空缺的数据需要通过专门的方法进行推到、填充等,以减少数据挖掘算法与实际应用之间的差距。

(4)坏数据处理

如果数据中存在坏数据,通常采用绝对均值法莱茵达法等对样本中的坏数据进行剔除。

(5)数据标准化

其目的是消除变量之间的量纲关系,从而使数据具有可比性。

(6)主成分分析

主成分分析是指用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,而且相互之间又是无关的。

(7)属性选择

因为采集的数据中每一个属性对于整个数据的挖掘结果的作用不是完全对等的,一些属性对结果的影响占主导地位,一些属性对结果的影响不大,甚至没有影响。例如:去掉某个属性后对挖掘结果无影响,从而减少后续挖掘算法的运行时间,同时也能有效地去除数据中含有的噪声数据。
属性选择方法有:Lasso、Adapt_lasso

(8)数据规约

数据归约(Data Reduction)用于在尽可能保持数据完整性的基础上得到数据的归约表示。也就是说,在归约后的数据集上挖掘将更有效,而且仍会产生相同或相似的分析结果。数据归约包括维归约、数量归约和数据压缩

维归约

维归约的思路是减少所考虑的随机变量或属性的个数,使用的方法有属性子集选择、小波变换和主成分分析。属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测或删除。而后两种方法是原始数据变换或投影到较小的空间。

数量归约

数量归约(Numerosity Reduction)用替代的、较小的数据表示形式换原始数据。这些技术可以是参数或者非参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数而不是实际数据(离群点需存放),如回归和对数-线性模型。存放数据规约表示的非参数方法包括: 直方图、聚类、抽样和数据立方体聚类。

数据压缩

数据压缩(Data Compression)使用变换,一遍得到原始数据的归约或“压缩”表示。如果数据可以在压缩后的数据重构,而不损失信息,则该数据归约被称为无损的。如果是近似重构原数据,称为有损的。基于小波变换的数据压缩是一种非常重要的有损压缩方法。

5、模式发现

需要考虑的问题是,本次建模属于数据挖掘应用中的哪类问题(回归、分类、聚类、关联规则或者时序模式),选用哪种算法进行模型构建。在确定哪类问题之后,就可以按照问题的具体要求来重新审视已经采集的数据,看它是否适应挖掘目标的需要。针对挖掘目标的需要可能要对数据进行增删,也可能按照对整个数据挖掘过程的新认识,要组合或生成一些新的变量,以体现对状态的有效描述。

6、模型构建

这一步是数据挖掘工作的核心环节。预测模型多种多样,可以适应不同结构的样本数据。正确选择预测模型在数据挖掘过程中是具有关键性的一步。必要时,可以同时采用几种预测模型进行运算以便对比、选择。对于模型建立来说,要记住最重要的就是它是一个反复的过程。预测模型的构建通常包括模型建立、模型训练、模型验证和模型预测4个步骤,但根据不同的数据挖掘分类应用会有细微的变化。

7、模型评价

模型评价的目的

1、从这些模型中选出一个最好的模型出来。
2、要针对业务对模型进行解释和应用。

模型评价的效果

第一步:直接使用原来建立模型的样本数据进行检验。
第二步:另外找一批数据,已知这些数据是反映客观实际的、规律性的。

(1)预测模型的评价

预测模型对训练集进行预测而得出的准确率并不能很好地反映分类模型未来的性能,为了能预测一个分类模型在新数据上的性能表现,需要一组没有参与分类模型建立的数据集,并在该数据集上评估分类器的准确率,这组独立的数据集叫做测试集。常用的评估方法包括:保持法、随机二次抽样、自助法、交叉验证法等。

模型预测效果常用相对误差、绝对误差、均方误差,根均方差、均方根误差、平均绝对误差、平均绝对百分误差、相对平方根误差、Kappa统计等指标来衡量。

分类模型的预测效果常有识别精准度、识别精确率、反馈率、ROC曲线等。

(2)聚类模型评价

聚类分群效果可以通过向量数据之间的相似度来衡量,向量数据之间的相似度定义为两个向量之间的距离(实时向量数据与聚类中心向量数据),距离越近则相似度越大,即该实时向量数据归为某个聚类。常用相似度计算方式有:欧氏距离、皮尔逊相关系数法、相似度等。

8、常用的建模工具

Enterprise Miner(简称EM) 是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术,同时还集成了复杂的数据库管理软件。它的运行方式是通过在一个工作空间( Workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程( Workflow),便可以得到相应的结果。

Clementine 提供了一个可视化的快速建立模型的环境,作为业内领先的数据挖掘平台,允许企业利用业务专业技能快速开发预测模型,并迅速部署提升决策水平。Clementine能够帮助企业达成目标:

IBM 的 Intelligent Miner正在竞争数据挖掘工具市场的领导地位,竞争力主要集中在资料探勘上。

SQL Server中集成了数据挖掘工具,借助SQL Server 的数据库管理功能,用户可以实现数据挖掘建模。在 SQL Server 2008中提供了决策树算法、聚类分析算法、Naive Bayes 算法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是其预测建模的实现是基于SQL Server平台的,而平台移植性相对较差,也没有考虑综合各种预测方法来优化预测结果。

MATLAB (Matrix Laboratory,矩阵实验室) 是美国 Mathworks公司开发的应用软件,具备强大的科学及工程计算能力。它不但具有以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。它的应用领域十分广泛,主要包括:数学计算和分析、自动控制、系统仿真、数学信号处理、图形图像分析、数理统计、人功智能、虚拟现实技术、金融系统等。

WEKA ( Waikato Environment for Knowledge Analysis) 是一款知名度较高的开源机器学习和数据挖掘软件。高级用户可以通过Java 编程和命令行来调用其分析组件。同时,WEKA也为普通用户提供了图形化界面,称为WEKA Knowledge FlowEnvironment和 WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。

顶尖数据挖掘平台(TipDM) 是广州 TipDM团言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型。TipDM支持数据挖掘流程所需的主要过程,并提供开放的应用接口和常用算法,能够满足各种复杂的应用需求。支持CRISP-DM流程所需的主要过程,并且完成一系列功能,包括:

  1. 空值处理、降维处理、离散处理;
  2. 因子分析、主成分分析、抽样、过滤;
  3. 创建、训练、评估模型;
  4. 预测和修改模型参数;
  5. 误差分析。
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值