第一讲 Hadoop概述及生态圈
预习笔记
一、Hadoop生态系统圈
以上图片是Hadoop 1.0 生态圈。
本文总结如下组件信息或基本架构:
- HDFS(分布式文件系统)
- MapReduce(分布式计算框架)
- HBase(实时分布式数据库)
- Hive(数据仓库)
- Pig(数据流处理)
- Mahout(数据挖掘库)
- Sqoop(数据库ETL工具)
- Flume(日志收集工具)
以上图片是Hadoop 2.0 生态圈。
新增重要组件:
- YARN(集群资源管理系统)
二、HDFS(分布式文件系统)
- 思想来源:源自于Google在2003年10月发表的论文。假设有一个TB级文件中的数据待处理,而目前只有内存为GB级的电脑。这时可以将TB级文件切割成若干GB级文件并同时发送到各个电脑进行处理,处理后再通过一个专门的电脑将这些GB级文件碎片整合并传输给客户端。
- 基本特点:
具有良好的拓展性。
高容错性与可靠性。
适合PB级以上海量数据的存储。 - 架构示意图:
(1)NameNode: 角色是Master,管理HDFS的名称空间与数据块的映射信息,同时配置副本策略并处理客户端读写请求。
(2)DataNode: 角色是Slave,存储实际的数据块并进行读或写操作。
(3)Client: 切分文件,与NameNode交互获取文件位置信息,与DataNode交互读取或者写入数据,同时管理访问HDFS。
(4)Secondary NameNode: 辅助NameNode分担工作量,在紧急情况下可辅助恢复NameNode,但没有NameNode的数