Hadoop是一个大数据解决方案。它提供了一套分布式系统基础架构。 核心内容包含 hdfs 和mapreduce。hadoop2.0 以后引入 yarn。hdfs 是提供数据存储的,mapreduce 是方便数据计算的。这篇主要说HDFS。
- hdfs 对应 namenode 和 datanode。 namenode 负责保存元数据的基本信息,datanode 直接存放数据本身;
- mapreduce 对应 jobtracker 和 tasktracker。 jobtracker 负责分发任务,tasktracker 负责执行具体任务;
- 对应到 master/slave 架构,namenode 和 jobtracker 就应该对应到 【master】节点,而 datanode和 tasktracker 就应该对应到 【slave】节点。
1.介绍
HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。
2.设计原理
2.1 HDFS 架构
Client
Client