一、大数据概论
背景
1、数据量成指数级增长,大约两年翻一番
2、到2020年全球数据将达到40ZB
典型定义
- “大数据”是指在一定时间内无法用传统数据库软件工具采集、存储、管理和分析其内容的数据集合。
- “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
特点
-
1、规模大(Volume)
-
2、多样性(Variety)
分为结构化数据、非结构化数据、半结构化数据
(1)结构化数据:可以使用关系型数据库表示和存储,表现为二维形式的数据。
(2)非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用二维表表示。例如,视频、图片和音频等。
(3)半结构化数据:是结构化数据的一种形式,不符合关系型数据库或其他数据表的形式管理起来的数据模型结构,但包含相关标记,用于分割语义元素以及对记录和字段进行分层,故称自描述的结构。例如,HTML文档、JS