Hadoop 3.x
1、大数据与Hadoop概述
-
大数据简介
- 是一种数据规模大到在获取、存储、管理、分析等方面大大超出传统关系型数据库软件工具能力范围的数据集合,处理室需要采用新的分布式处理技术。
- 四大特征
- 海量的数据规模
- 快速的数据流转
- 多样的数据类型
- 价值密度低
- 5V 特点
- Volume大量
- Velocity高速
- Variety多样
- Value价值
- Veracity真实性
-
大数据典型应用
运营商业务、金融业务、政务业务、交通领域业务、电子商务业务、科学研究业务、教育领域业务、健康医疗领域业务
-
Hadoop简介
- 是Apache软件基金会开发的分布式系统基础架构。
- Hadoop不是一套孤立的系统,具有很多生态子项目的支撑。
- Hadoop框架的核心设计就是 HDFS(数据存储) 和 MapReduce(数据计算)。
- 五大优点
- 高可靠性 --> 维护多个工作数据副本
- 高扩展性 --> 在集群间分配数据完成计算
- 高效性 --> 并行工作,能够在节点之间动态的移动数据
- 高容错性 --> 可将失败的任务重新分配
- 低成本 --> 开源
-
Hadoop组成