Hadoop 3.x|第四天|HDFS的定义

z754916067

已于 2022-03-23 11:24:02 修改

阅读量646

点赞数

分类专栏：数据仓库文章标签： hadoop

于 2022-03-22 18:03:29 首次发布

本文链接：https://blog.csdn.net/z754916067/article/details/123666713

版权

41 篇文章 3 订阅

订阅专栏

本文详细解读了Hadoop分布式文件系统(HDFS)的定义、优点如高容错、大数据处理和成本效益，同时揭示了其不适合低延迟访问、小文件存储和并发写入等缺点。核心介绍了NameNode、DataNode和辅助节点NN的角色，以及文件块大小的选择原则。

摘要由CSDN通过智能技术生成

定义

HDFS是一个文件系统，是分布式文件管理系统中的一种，适合一次写入，多次读出的场景。

高容错性：自动保存多个副本，也可以自动恢复。
适合处理大数据：能够处理规模达到GB TB甚至PB级别的数据。
文件规模：能够处理百万规模以上的文件数量。
性价比高：可以构建在廉价机器上，通过多副本机制，提高可靠性。

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。
无法高效的对大量小文件进行存储：因为存储大量小文件的话，会占用NameNode大量的内存来存储文件目录和块信息，但NameNode的内存总是有限的。
这样会让检索的时间超过读取的时间，有违定位。
不能支持并发的写入，文件随机修改，一个文件只能有一个写，不允许多个线程同时写。
只支持数据追加，不支持文件随机修改。

在这里插入图片描述

并非热备（立即代替NN进行工作），只是辅助NameNode，分担工作量。
在紧急情况下，可辅助回复NameNode。

目前默认在1.x版本里是64M，在Hadoop2.x/3.x版本中是128M。
在hdfs-default.xml里有指出，其中134217728/1024/1024=128M
在这里插入图片描述

目前磁盘的传输速率普遍为100MB/S，而通常情况下，寻址时间为传输时间的1%时为最佳状态
故寻址时间为1*0.01=0.01s=10ms。
寻址时间就是在block中进行查找，找到目标block的时间。

HDFS如果把块设置的太小，会增加寻址时间。
如果设置的太大，那么传输时间会明显大于寻址时间，导致程序在处理这块数据时会非常慢。

HDFS的大小设置主要取决于磁盘的传输速率。

关注

专栏目录