- 什么是数据挖掘?
数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程。
- 数据挖掘与数据分析的区别?
- 数据挖掘的流程?
CRISP-DM(跨行业数据挖掘标准流程)是Cross Industry Standard Process —Data Mining的缩写,是当今数据挖掘业界通用流行的标准之一。它强调数据挖掘技术在商业中的应用,是用以管理并指导Data Miner有效、准确开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的规范标准。
CRISP-DM模型的基本步骤包括:
商业理解:
这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个旨在实现目标的初步计划。具体的包括:
确定业务目标:分析项目的背景,从业务视点分析项目的目标和需求,确定业务角度的成功标准;
项目可行性分析:分析拥有的资源,条件和限制,风险估计,成本和效益估计;
确定数据挖掘目标:明确数据挖掘的目标和成功标准,数据挖掘的目标和业务目标是不一样的,前者指技术上的,例如生成一棵决策树等;
提出项目计划:对整个项目做一个计划,初步估计用到的工具和技术。
数据理解:
数据理解阶段开始于原始数据的收集,然后是熟悉数据,标明数据质量问题,探索数据进而对数据初步理解,发觉有趣的子集以形成对隐藏信息的假设。具体地,包括:
收集原始数据:收集本项目所涉及到的数据,如有必要,把数据装入数据处理工具,并作一些初步的数据集成的工作,生成相应报告;
描述数据:对数据做一些大致的描述,例如记录数、属性数等,给出相应报告;

本文介绍了数据挖掘的基础知识,包括数据挖掘的定义、与数据分析的区别,以及CRISP-DM流程的详细步骤。CRISP-DM流程包括商业理解、数据理解、数据准备、建立模型、模型评估和模型实施六个阶段,是数据挖掘项目中的通用标准。此外,还探讨了数据的类型、数据集的特性以及数据汇总统计的方法。
最低0.47元/天 解锁文章
1901

被折叠的 条评论
为什么被折叠?



