第 1 章 HDFS 概述
1.2 HDFS 优缺点
1.3 HDFS 组成架构
DataNode存储数据的副本没有主从区别,读数据时客户端根据获取的元数据就近原则读取数据
1.4 HDFS 文件块大小(面试重点)
第 4 章 HDFS 的数据流(面试重点)
4.1 HDFS 写数据流程
4.1.1 剖析文件写入
4.1.2 网络拓扑-节点距离计算
4.1.3 机架感知(副本存储节点选择)
- 官方 ip 地址
机架感知说明
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoophdfs/HdfsDesign.html#Data_Replication
For the common case, when the replication factor is three, HDFS’s placement policy is to put one replica on one node in the local
rack, another on a different node in the local rack, and the last on a different node in a different rack.
4.2 HDFS 读数据流程
HDFS 的读数据流程,如图 3-13 所示。
第 5 章 NameNode 和 SecondaryNameNode(面试开发重点)
5.1 NN 和 2NN 工作机制
5.2 Fsimage 和 Edits 解析
5.3 CheckPoint 时间设置
5.4 NameNode 故障处理
NameNode 故障后,可以采用如下两种方法恢复数据。
5.6 NameNode 多目录配置
第 6 章 DataNode(面试开发重点)
6.1 DataNode 工作机制
6.2 数据完整性
6.3 掉线时限参数设置
(2)在hadoop105上上传文件
[atguigu@hadoop105 hadoop-2.7.2]$ hadoop fs -put /opt/module/hadoop-2.7.2/LICENSE.txt /
(3)如果数据不均衡,可以用命令实现集群的再平衡
[atguigu@hadoop102 sbin]$ ./start-balancer.sh
starting balancer, logging to
/opt/module/hadoop-2.7.2/logs/hadoop-atguigu-balancer-hadoop102.out
Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being Moved
6.4 服役新数据节点
6.6 Datanode 多目录配置
第7章 HDFS 2.X新特性
7.1 集群间数据拷贝
1.scp实现两个远程主机之间的文件复制
scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push
scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull
scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。
2.采用distcp命令实现两个Hadoop集群之间的递归数据复制
[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp
hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt
7.2 小文件存档
第8章 HDFS HA高可用