00 大数据架构课程导论
1 大数据发展史
- 第三次信息化浪潮
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
---|---|---|---|---|
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 将涌现出一批新的市场标杆企业 |
- 数据产生方式的变革
- 大数据时代来临
2 什么是大数据
-
Wikipedia: Big data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time.(大数据是指无法使用常用的软件工具在一定时间内完成获取、管理和处理的数据集)。
-
大数据的特点(4V)
- 大数据中隐藏着更准确的事实
- 信息检索、自然语言理解和机器学习的三个要素: 数据、特征与算法
- 算法不再要紧,数据更重要!不再需要研究复杂算法,找更多数据就行了!
- 大数据集上的简单算法能比小数据集上的复杂算法产生更好的结果!
- 大数据是一种思维方式
- 科学研究的数据范式
- 全样而非抽样
- 效率而非精确
- 相关而非因果
- 数据是核心资产和驱动力
3 大数据处理需求
-
数据采集与预处理
- 结构化(RDBMS)、半结构化(HTML)、非结构化数据(文本、图像、声音、视频)
- 业务数据、内容数据、感知数据
-
数据存储与管理
- 数据体量巨大,源源不断高速产生
-
数据处理与分析
- 业务灵活多变,商机转瞬即逝,要求高速处理
-
数据解释与可视化
-
单机不够看