大数据2、Apache Hadoop 分布式文件系统

prince wong

已于 2022-06-07 09:00:54 修改

阅读量122

点赞数

分类专栏：大数据文章标签： hadoop apache hdfs

于 2022-05-27 17:25:19 首次发布

本文链接：https://blog.csdn.net/weixin_50007828/article/details/125007889

版权

7 篇文章 0 订阅

订阅专栏

本系列为大数据学习个人笔记，如有错误，欢迎指正，也欢迎各路朋友交流讨论。

NameNode：

在这里插入图片描述

在这里插入图片描述

Client
- 用户/应用程序界面与群集，DN进行交互
- HDFS命令
- HDFS的java客户端
Namespace
- 文件/目录 - 与拆分为块的常规文件系统相同
- Blocks
  - Default: 64M (v1); 128M (v2)
  - 阻止在NN中保存的元数据 - 小文件问题
Block Storage：
- Replications 副本
  - 默认值为3，并为新添加的节点重新平衡
  - 当地的第一个复制品。在本地但不同的节点上排名第二。第三个在不同的机架上

在这里插入图片描述

在Hadoop v1中，NN具有单点故障
What are the solutions? (解决方案)
- HDFS联合通过在多个分隔的NameNode上对文件系统命名空间进行分区
Hadoop的高可用，主要指的就是NN的高可用，官方支持HA方案，通过zookeeper来进行管理和实现
依赖zookeeper框架（重点掌握）
- Active and Standby NNs share the storage for edit logs; (共享存储以进行编辑日志)
- 官方支持的方案

在这里插入图片描述

在这里插入图片描述

官方命令 https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

关注