Hadoop简介
1.概念
Hadoop是一套大数据解决方案. 它提供了一套分布式系统基础架构. 核心内容包含HDFS和MapReduce, 在Hadoop2.0以后引入YARN
简单来讲, HDFS是供数据存储的, MapReduce是方便数据计算的, YARN是负责资源调度的
- HDFS对应namenode和DataNode. NameNode负责保存元数据的基本信息, Datanode直接存放数据本身
- MapReduce对应JobTracker和TaskTracker. JobTracker负责分发任务, TaskTracker负责执行具体任务
- 对应到Master/Slave架构, NameNode和JobTracker对应Master, DataNode和TaskTracker对应Slave
2.HDFS
HDFS由四部分组成, HDFS Client, NameNode, DataNode, SecondaryNameNode
-
HDFS Client:
1.提供一些命令来管理, 访问HDFS, 比如启动或关闭HDFS
2.与DataNode交互, 读取或写入数据. 读取时, 要与NameNode交互, 获取文件存储位置信息; 写入HDFS的时候, Client把文件切分成一个一个的Block, 然后进行存储