全面解析数据挖掘流程及技术分析

Hadoop系统的发展解决了企业大数据的存储和处理能力的问题。但是系统本身并不能对数据形成分析和理解。如何从海量的数据中发现有用的知识并为企业发展提供帮助和指导,是数据挖掘技术的研究目标。

简单来说,数据挖掘就是利用人工智能、机器学习、统计学、模式识别等技术,从大量的、含有噪声的实际数据中提取其中隐含的、事先不为人所知的有效信息的过程。一方面,数据挖掘所处理的数据对象是真实的、包含噪音,因此是一门实际应用科学;另一方面,其目的在于发现人们感兴趣的知识,与市场逻辑存在着紧密联系。大数据时代的数据挖掘技术并不是一门新的学科,其基本原理与传统数据挖掘并无本质区别。只是由于所需要处理的数据规模庞大、且价值密度低,在处理方法和逻辑上被赋予了新的含义。比如传统数据挖掘由于数据量较小,为真实反应实际情况,需要构建相对复杂的模型;而大数据时代提供了海量的数据,可能使用相对简单的模型便可以满足需求。

所示为数据挖掘基本流程,包括商业理解、数据准备、数据理解、模型建立、模型评估和模型应用几个步骤。

首先是商业理解,也就是对数据挖掘问题本身的定义。所谓做正确的事比正确的做事更重要,在着手做数据模型之前一定要花时间去理解需求,弄清楚真正要解决的问题是什么,根据需求制定工作方案。这个过程需要比较多的沟通和市场调研,了解问题提出的商业逻辑。在沟通交流过程中,为了便于对沟通效果进行把控,可以采取思维导图等工具对的结果进行记录、整理。

明确需求后,接下来就是要收集并整理数据建模所需要的数

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值