数据分析与数据挖掘的区别与个人理解
1.理解大数据
在了解数据分析与数据挖掘的区别之前,首先我们要明确大数据的概念,因为目前互联网所谓的数据分析与数据挖掘都是基于大数据来做的。
1.1大数据的定义与特点
大数据有非常多的定义,我们套用一个流传最广的概念,大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性) 。
总的来说,大数据可以概括为很多、很杂、很有价值的数据。
1.2大数据与传统数据的区别
维度 | 传统数据 | 大数据 |
---|---|---|
数据量 | GB-TB | TB-PB以上 |
多样性 | 结构化数据 | 结构化、半结构化、多维、音视频数据 |
速度 | 数据量稳定,增长不快 | 持续实时产生数据,要求及时处理 |
价值 | 高密度< |