全面解析数据挖掘流程及技术分析

程序の之道

于 2019-03-27 21:41:02 发布

阅读量1.9k

点赞数 1

文章标签：大数据 hadoop 数据挖掘算法 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44233163/article/details/88856112

版权

Hadoop系统的发展解决了企业大数据的存储和处理能力的问题。但是系统本身并不能对数据形成分析和理解。如何从海量的数据中发现有用的知识并为企业发展提供帮助和指导，是数据挖掘技术的研究目标。

简单来说，数据挖掘就是利用人工智能、机器学习、统计学、模式识别等技术，从大量的、含有噪声的实际数据中提取其中隐含的、事先不为人所知的有效信息的过程。一方面，数据挖掘所处理的数据对象是真实的、包含噪音，因此是一门实际应用科学;另一方面，其目的在于发现人们感兴趣的知识，与市场逻辑存在着紧密联系。大数据时代的数据挖掘技术并不是一门新的学科，其基本原理与传统数据挖掘并无本质区别。只是由于所需要处理的数据规模庞大、且价值密度低，在处理方法和逻辑上被赋予了新的含义。比如传统数据挖掘由于数据量较小，为真实反应实际情况，需要构建相对复杂的模型;而大数据时代提供了海量的数据，可能使用相对简单的模型便可以满足需求。

所示为数据挖掘基本流程，包括商业理解、数据准备、数据理解、模型建立、模型评估和模型应用几个步骤。

首先是商业理解，也就是对数据挖掘问题本身的定义。所谓做正确的事比正确的做事更重要，在着手做数据模型之前一定要花时间去理解需求，弄清楚真正要解决的问题是什么，根据需求制定工作方案。这个过程需要比较多的沟通和市场调研，了解问题提出的商业逻辑。在沟通交流过程中，为了便于对沟通效果进行把控，可以采取思维导图等工具对的结果进行记录、整理。

明确需求后，接下来就是要收集并整理数据建模所需要的数

最低0.47元/天解锁文章

程序の之道

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
全面解析数据挖掘流程及技术分析

Hadoop系统的发展解决了企业大数据的存储和处理能力的问题。但是系统本身并不能对数据形成分析和理解。如何从海量的数据中发现有用的知识并为企业发展提供帮助和指导，是数据挖掘技术的研究目标。简单来说，数据挖掘就是利用人工智能、机器学习、统计学、模式识别等技术，从大量的、含有噪声的实际数据中提取其中隐含的、事先不为人所知的有效信息的过程。一方面，数据挖掘所处理的数据对象是真实的、包含噪音，因此是一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。