大数据(巨量数据集合)
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [2] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
特征
种类(Variety)
:数据类型的多样性
速度(Velocity)
:指获得数据的速度
;
可变性(Variability)
:妨碍了处理和有效地管理数据的过程。
真实性(Veracity)
:数据的质量
复杂性(Complexity)
:数据量巨大,来源多渠道
价值(value):
合理运用大数据,以低成本创造高价值
趋势
趋势一:数据的资源化
趋势二:与云计算的深度结合
趋势三:科学理论的突破
趋势四:数据科学和数据联盟的成立
趋势五:数据泄露泛滥
趋势六:数据管理成为核心竞争力
趋势七:数据质量是BI(商业智能)成功的关键
趋势八:数据生态系统复合化程度加强