HDFS基础

weixin_50722238

已于 2023-02-08 17:40:06 修改

阅读量428

点赞数

分类专栏： 2.HDFS 文章标签： hadoop linux 大数据

于 2022-10-11 11:12:13 首次发布

本文链接：https://blog.csdn.net/weixin_50722238/article/details/127209790

版权

一、HDFS介绍

HDFS是分布式文件系统。windows文件系统常见有fat32、ntfs，linux下常见是ext3、ext4，还有很多其他文件系统。不同类别的文件系统存储数据的格式不一样。

主（叫Master）和多个从（Slave或Worker）分别部署到不同机器上。主机器除了NameNode还有SecondaryNameNode（它并不是一个NameNode，仅仅是镜像文件，是数据的备份）。NameNode和DataNode其实是两个完全不同进程（注意是进程）。
HDFS1.0由3个组件构成： NameNode（目前只能启动一个）、 SecondaryNameNode 、 DataNode（每一台机器只能启动一个，但是多台机器会有多个）。

在这里插入图片描述

在这里插入图片描述

NameNode、SecondaryNameNode 、 DataNode

NameNode主要两个映射：文件名（客户端开发操作针对文件） -> block、block -> datanode（对应机器，一个机器只有一个datanode）。datanode的映射有block -> path。

在这里插入图片描述

Namenode进程挂了就不提供服务。
HDFS1.0集群规模扩大问题：Namenode元数据存储在内存中，当集群规模特别大挂载了很多DataNode节点，DataNode节点有很多文件，文件背后有很多block，会发现这个数据非常庞大，那完全存在于内存中是吃不消的。一旦数据变大后，一方面是不能及时持久化，另外方面是不能永远膨胀下去，所以它直接制