HCIE-Big Data 笔记

1.2.2 数据挖掘流程

       本小节主要介绍数据挖掘流程,包括CRISP-DM模型以及数据挖掘标准流程。

CRISP-DM模型

      ○CRISP-DM(跨行业数据挖掘标准流程)是Cross Industry Standard Process——Data Mining的缩写,是当今数据挖掘界通用流行的标准之一。他强调数据挖掘技术在商业中的应用,是用以管理并知道Data Miner有效、准确开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的规范标准。

       ○CRISP-DM模型的基本步骤包括:

              ◎商业理解

              ◎数据理解

              ◎数据准备

              ◎建立模型

              ◎模型评估

              ◎模型实施

商业理解(Business Understanding)

       ○这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。具体的包括:

                 ◎确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;

                  ◎项目可行性分析:分析拥有资源,条件和限制,风险估计,成本和效益估计;

                 ◎确定数据挖掘目标:明确数据挖掘的目标和成果标准,数据挖掘的目标和业务目标是不一样的,前者指的是技术上的,例如生成一棵决策树等。

                  ◎提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。

数据理解(Data Understanding)

       ○数据理解阶段开始于原始数据的收集,然后是熟悉数据,表明数据质量问题,探索数据进而对数据初步理解,发觉有趣的子集以行程对隐藏信息的假设。具体地,包括:

              ◎收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成工作,生成相应报告。

               ◎描述数据:对数据做一些大致的描述,例如记录数、属性等,给出相应报告。

               ◎探索数据:对数据做简单的统计分析,例如关键属性的分布等。

               ◎检查数据质量:包括数据是否完整、数据是否有错、是否有缺失值等问题。

                                                                                                                                                

数据准备(Data Preparation)

       ○数据准备阶段包括从原始的未加工的数据构造最终数据集的活动(这些数据集指将要嵌入建模工具的数据)。数据准备任务可能被实施多次,而且没有规定的顺序。这些任务包括表格、记录和属性的选择以及按照建模工具要求,对数据的转换和清晰。具体包括:

                  ◎数据选择:根据数据挖掘目标和数据质量选择合适的数据,包括表的选择、记录选择和属性选择;

                  ◎数据清洗:提高选择好的数据的质量,例如去除噪音,填充缺失值等;

                  ◎数据创建:在原有数据的基础上生成新的属性或记录;

                  ◎数据合并:利用数据表连接等方式将几个数据集合并在一起;

                  ◎数据格式化:把数据转换成合适数据挖掘处理的格式。

建立模型(Modeling)

         ○在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种模型技术。一些技术对数据格式有特殊要求。因此,尝尝需要返回到数据准备阶段。具体包括:

              ◎选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法;

              ◎测试方案设计:设计某种测试模型的质量和有效性机制;

              ◎模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型;

             ◎模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。

模型评估(Evaluation)

       ○进入项目中的这个阶段时,你已经建立了一个模型(或者多个),从数据分析的角度来看,该模型似乎有很高的质量。在模型最后发布前,有一点是很重要的——更为彻底地评估模型和检查建立模型的各个步骤,从而确保它真正地达到了商业目标。此阶段关键目的是决定是否存在一些重要的商业问题仍未得到充分地考虑。

              ◎结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果;

              ◎过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误;

             ◎确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段从新开始。

模型实施(Deployment)

       ○模型的创建通常并不是项目的结尾。即使建模的目的是增加对数据的了解,所获得的了解也需要进行组织并以一种客户能够使用的方式呈现出来。具体包括:

              ◎实施计划:对业务运作中部署模型作出计划;

              ◎监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型;

              ◎作出最终报告:项目总结,项目经验和项目结果。

              ◎项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。

数据挖掘标准流程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ave_lmy

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值