Hadoop系统的发展解决了企业大数据的存储和处理能力的问题。但是系统本身并不能对数据形成分析和理解。如何从海量的数据中发现有用的知识并为企业发展提供帮助和指导,是数据挖掘技术的研究目标。
简单来说,数据挖掘就是利用人工智能、机器学习、统计学、模式识别等技术,从大量的、含有噪声的实际数据中提取其中隐含的、事先不为人所知的有效信息的过程。一方面,数据挖掘所处理的数据对象是真实的、包含噪音,因此是一门实际应用科学;另一方面,其目的在于发现人们感兴趣的知识,与市场逻辑存在着紧密联系。大数据时代的数据挖掘技术并不是一门新的学科,其基本原理与传统数据挖掘并无本质区别。只是由于所需要处理的数据规模庞大、且价值密度低,在处理方法和逻辑上被赋予了新的含义。比如传统数据挖掘由于数据量较小,为真实反应实际情况,需要构建相对复杂的模型;而大数据时代提供了海量的数据,可能使用相对简单的模型便可以满足需求。
所示为数据挖掘基本流程,包括商业理解、数据准备、数据理解、模型建立、模型评估和模型应用几个步骤。
首先是商业理解,也就是对数据挖掘问题本身的定义。所谓做正确的事比正确的做事更重要,在着手做数据模型之前一定要花时间去理解需求,弄清楚真正要解决的问题是什么,根据需求制定工作方案。这个过程需要比较多的沟通和市场调研,了解问题提出的商业逻辑。在沟通交流过程中,为了便于对沟通效果进行把控,可以采取思维导图等工具对的结果进行记录、整理。
明确需求后,接下来就是要收集并整理数据建模所需要的数