从真实的业务场景出发,聊数据挖掘项目的完整应用流程
数据挖掘是科学,也是艺术,或者说一半是科学,一半是艺术。所谓科学,是指数据挖掘的算法、流程和分析技术的应用是科学的、严谨的。所谓艺术,是指在具体的分析过程中,融入了分析师的创新思维、主观的判断和取舍,尤其表现在挖掘思路的推敲和衍生变量的创建等方面。数据挖掘实战中的流程会有一些基本的顺序,按着流程进行挖掘是数据分析严谨性的体现。
1.项目背景和业务分析需求的提出
业务需求是数据挖掘任务的出发点。需求提出方要根据当前的业务背景,定位问题、找到痛点、提出需求及制定目标。值得一提的是,在项目开始之初,分析需求可以是粗略的或者不明确的,可以在接下来与数据分析团队的互相沟通中明确最终的需求。
2.数据分析师参与需求讨
接到业务方的初步分析需求之后,数据分析师针对该潜在的项目与相关运营方一起进行需求讨论。这类讨论的主要目的:一为针对需求收集相关的背景数据和指标,与业务方一起熟悉背景中的相关业务逻辑,并收集业务方对需求的相关建议、看法;二为从数据分析的专业角度评价初步的业务分析需求是否合理、是否可行。
3.制定需求分析框架和分析计划
基于前面对业务的初步了解和需求背景的分析,数据分析师需要制定初步的分析框架和分析计划。
分析计划主要指分析过程中时间节点的安排和相应的分析进度的设置,下表是一个数据挖掘项目在时间与分析进度上的示例。
时间 | 分析进度 |
---|---|
1月5日-1月11日 | 数据的抽取和摸底阶段 |
1月12日-1月18日 |