大数据、数据分析和数据挖掘的区别

最新推荐文章于 2024-07-30 16:42:56 发布

非科班大数据工程师

最新推荐文章于 2024-07-30 16:42:56 发布

阅读量2.9w

点赞数 9

分类专栏：大数据文章标签：大数据大数据学习大数据开发数据挖掘数据分析

大数据专栏收录该内容

35 篇文章 1 订阅

订阅专栏

大数据、数据分析、数据挖掘的区别是，大数据是互联网的海量数据挖掘，而数据挖掘更多是针对内部企业行业小众化的数据挖掘，数据分析就是进行做出针对性的分析和诊断，大数据需要分析的是趋势和发展，数据挖掘主要发现的是问题和诊断：

1、大数据（big data）：指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产；在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）Veracity（真实性）。

2、数据分析：是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中，数据分析可帮助人们作出判断，以便采取适当行动。数据分析的数学基础在20世纪早期就已确立，但直到计算机的出现才使得实际操作成为可能，并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。

3、数据挖掘（英语：Data mining）：又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discoveryin Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

【大数据开发学习资料领取方式】：加入大数据技术学习交流群458345782，点击加入群聊，私信管理员即可免费领取

接下来重点讲解下大数据的核心：数据挖掘到底是个怎样的过程？

大概是从 2014 年开始，“大数据” 和 “数据挖掘” 忽然变成了热门的流行词，几乎天天都能在甲乙丙丁的谈话中听到那么一两次。但你要真让他们说说什么是大数据，也许他们都只能答个一知半解。小满今天就为大家科普，“数据挖掘” 到底是什么？具备什么样的特点？

数据挖掘：通过数据分析找出答案的过程

在品牌生意的初期，Excel 表格足以应付不多的数据。但当客人越来越多，生意越来越好时，庞大的数据变得难以应付，更别提想要摸索到数据之间的关联以提高生意了。这时，“数据挖掘”的出现拯救了即将爆炸的数据，帮助人们用最快的速度找到最有价值的信息。

但数据挖掘并不仅仅是针对数据进行分析，包括前期的数据收集采样、后期的模型研发等，都在数据挖掘的范畴中，因此这是个从数据中寻找问题解决方法的过程。

数据挖掘五步走：S-E-M-M-A

在实行方法之前，得先确定清楚通过本次数据挖掘想要知道什么样的具体结论。

例如，你想了解你的消费者的需求转移路径、或者产品之间的关联性等。具体的目标决定需采用怎样的数据池以及数据模型。

S - SAMPLE - 数据取样

E - EXPLORE - 数据的特征探索，分析和处理

M - MODIFY - 问题明确化，数据调整和技术选择

M - MODEL - 模型的研发、知识的发现

A - ASSESS - 模型和知识的综合解释和评价

S-SAMPLE 数据取样

数据取样是最终挖掘结果的基石。面对企业的巨量数据，我们不可能动用其全部的数据——这样的效率低下，且极不安全。因此，我们必须根据目标制定需要选取的数据样本，节省系统资源。

确定好需要选取的数据样本后，必须不时抽查数据的质量。数据质量的标准有几点用以判断：数据的完整性、规范性、一致性、唯一性、准确性。数据是否有缺失字段，是否按照规定存储，是否有度量单位上的冲突，是否和别的数据有属性上的重复，是否是正常而有意义的数据。

E-EXPLORE 数据的特征探索

数据探索是对目标命题的初步检验。在我们想了解的事实中，背后隐藏着许多复杂的关系。数据探索的第一步就是先搞清楚哪些因素会相互影响，我们必须先观察众多因素间的相关性，再按其相关程度了解他们相互作用的情况。

在数据探索的过程中，你的专业技术知识会帮你进行有效的观察，甚至有可能会发现之前从未发现过的关系，这也许是新的知识，不要轻易的给数据探索的结果下定论。

M-MODIFY 问题明确化、数据调整和技术选择

在对数据做了特征探索、分析和处理后，你已经掌握了一定的数据状态和趋势，离开答案更进一步了。MODIFY 的步骤就要求我们尽可能将问题量化。问题越明确，则越能进一步量化，就能得到更清楚、有效的答案。

当问题有进一步明确化的要求好，我们可以按照问题的具体要求重新审视当前的数据集。想要让数据挖掘有效的进行，那么这个过程中所使用的数据和模型都应是易于调整、修改和变动的状态。

M-MODEL 模型的研发、知识的发现

这是数据挖掘过程中的核心工作环节，也是最难的一部分。这部分工作涉及了非常广泛的技术领域，包括统计技术、关联规则、遗传算法、决策树、神经网络之类的，尤其是各式各样的数据模型，在这部分的工作中将起到重要的作用。

A-ASSESS 模型和知识的综合解释和评价

在完成数据模型之后，你将得到一系列的结果、模式或模型，且必须对这组结果进行验证，以找到最好的模型。同一组数据源可以采用多种数据分析的方法和模型进行分析。一般情况下，数据结果并不能直接的展示问题所在。这时，就要很好的综合每一组结果的影响规律性并为问题提供合理的决策支持信息。

因此，在数据挖掘的过程中，尽可能的将影响问题结果的数据指标平衡量化。评价的方法是使用原来建立模型的样板数据进行检验。假如这一关就不通过的话，那么这个决策支持信息的价值就值得怀疑了。

【结语】

数据挖掘是大数据的核心技术。要做好数据挖掘，必须要有非常专业的数学和计算机知识，也需要有面对数据进行质疑，面对结果进行严谨探讨的强大内心。小满将在接下去的两周和大家分享大数据分析中运用到的技术和算法。

更多大数据学习相关资源请关注公众号：ITdaima

非科班大数据工程师

关注

9
点赞
踩
82

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。