CRISP-DM数据挖掘基本流程
数据挖掘的基本流程图
在实际的数据挖掘过程中,基本会经历一下的这些流程(主要参考CRISP-DM的流程,下文有详述。)。其中包含两个小循环和一个大循环。
- 第一个小循环是商业理解和数据理解之间的指标的反复构建和优化。
- 第二个小循环是数据准备和建立模型,主要涉及到对数据的各种变换:清洗、特征筛选、特征生成、数据集成等。
- 一个大循环是指,在结果部署之前,通过模型的评估,可能会回溯到商业理解的地方,对分析过程重新来过。
CRISP-DM
CRoss Industry Standard Process for Data Ming. 跨行业的基本数据挖掘流程。
下图是对数据挖掘各个阶段内应包含的内容做以简述。
CRISP-DM的实现方法
商业理解
主要目的是了解业务背景、目标和痛点、制定合理的行动方案和可预期的成果。
STAR法则:状况、任务、行动、结果
OKR准则:通过定义目标O,设置关键成果KR.