HDFS 基础入门了解

最新推荐文章于 2024-04-19 11:14:22 发布

.道不虚行

最新推荐文章于 2024-04-19 11:14:22 发布

阅读量275

点赞数

分类专栏： hadoop 文章标签： hdfs

本文链接：https://blog.csdn.net/weixin_44387652/article/details/106403281

版权

hadoop 专栏收录该内容

53 篇文章 5 订阅

订阅专栏

HDFS 基础入门了解

1、HDFS 前言
2、HDFS 相关概念和特性
3、HDFS 优缺点
4、学习内容

1、HDFS 前言

HDFS：Hadoop Distributed File System Hadoop 分布式文件系统，主要用来解决海量数据的存储问题。
1、设计思想
分而治之：将大文件，大批量文件，分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析。
2、在大数据系统架构中的应用
为各类分布式运算框架（MapReduce，Spark，Tez，Flink，…）提供数据存储服务。
3、重点概念：数据块/副本，负载均衡，心跳机制，副本存放策略，元数据/元数据管理，安全模式，机架感知…

2、HDFS 相关概念和特性

2.1、HDFS 设计思路

HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储，那是怎么做到的呢？
1、大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理
2、每个小文件做冗余备份，并且分散存到不同的服务器，做到高可靠不丢失。

现有一个 8T 的文件，如何用内存 64G，磁盘 2T 的服务器来横向扩展存储这个大文件。
（1）分而治之的思想，分块存储（block），将大文件切分成块分别存储在不同的节点上。数据块不能太大，会造成节点磁盘利用率太低不合理，且容易造成负载不均衡。数据块也不能太小，否则需要的datanode节点较多，造成namenode压力太大。
A、在hadoop各版本中一个块的大小，已经系统的帮助我们设计好了：
hadoop1.X ==========> 64M
hadoop2.X ==========> 128M
hadoop3.X ==========> 256M
B、block的大小参数可以手动设置(dfs.blocksize)：
HDFS的默认配置项：hdfs-default.xml 在jar包中。
如果配置了 hdfs-site.xml 会覆盖掉默认配置项。
C、block是HDFS分布式存储的最小单元，也是负载均衡的最小单元。hdfs在进行数据存储的时候，最小切割的单位是block块；负载均衡中一个block只能存储在一个节点上，但是一个节点上可以存储多个block块的。
D、一个文件 300M 存储的时候切分几个block？
block0 ====> 0-128M ====> 128M
block1 ====> 128-256M ====> 128M
block2 ====> 256-300M ====> 44M
一个文件的块不足128M 单独成一个数据块，这个块的实际大小就是文件剩下的大小，不会和其它文件混合存储的。
（2）副本策略，冗余存储。每一个block的备份，为了提升整个文件的可用性，存储多个副本。同一个block块的所有副本都处于同等地位，没有主次之分。
A、对HDFS来说，默认每一个block块的副本为 3（dfs.replication），提高容错性，同一个block块的副本必须存放在不同的节点上。
B、副本个数 > 节点个数时，实际存储最大就是节点个数，剩余副本会等待datanode的扩充时分配。
C、在节点个数充足的情况下，如果有一个block块所在副本节点宕机了，集群会复制一个副本，保持副本设定的副本数。这个时候宕机的节点修复好启动后，副本个数就比原先多了一个，大于设定的副本，过一段时间之后，集群便会删除多余的副本，一般是删除最后启动的节点副本。

2.2、HDFS 架构

1、一主多从。
主：namenode
（1）负责客户端请求（读写数据请求）的响应。
（2）维护目录树结构（元数据的管理：查询，修改）。
（3）配置和应用副本存放策略。
（4）管理集群数据块负载均衡问题。
从：datanode
（1）处理客户端读写请求的；
（2）存储管理用户的文件块数据，分块+冗余。
（3）定期向 namenode 汇报自身所持有的 block 信息（通过心跳信息上报）。
助理：secondarynamenode
（1）SecondaryNamenode 的作用就是分担 namenode 的合并元数据的压力。所以在配置SecondaryNamenode 的工作节点时，一定切记，不要和 namenode 处于同一节点。但事实上，只有在普通的伪分布式集群和分布式集群中才有会 SecondaryNamenode 这个角色，在 HA 或者联邦集群中都不再出现该角色。在 HA 和联邦集群中，都是有 standby namenode 承担。

2.3、概念和特性

首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件。其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器都有各自清晰的角色定位。
重要特性如下：
1、HDFS 中的文件在物理上是分块存储（block），块的大小可以通过配置参数(dfs.blocksize)来规定，默认大小在 hadoop2.x 版本中是 128M，老版本中是 64M。
2、HDFS 文件系统会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，
形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data
hdfs://hadoop02:9000/soft/hadoop-2.6.5-centos-6.7.tar.gz
3、目录结构及文件分块位置信息(元数据)的管理由 namenode 节点承担。namenode 是 HDFS 集群主节点，负责维护整个 hdfs 文件系统的目录树，以及每一个路径（文件）所对应的 block 块信息（block 的 id，及所在的 datanode 服务器）。
4、文件的各个 block 的存储管理由 datanode 节点承担datanode 是 HDFS 集群从节点，每一个 block 都可以在多个 datanode 上存储多个副本（副本数量也可以通过参数设置 dfs.replication，默认是 3）。
5、HDFS 是设计成适应一次写入，多次读出的场景，且不支持文件的修改。

(PS：适合用来做数据分析，并不适合用来做网盘应用，因为，不便修改，延迟大，网络开销大，成本太高)

3、HDFS 优缺点

优点	缺点
可构建在廉价机器上，通过多副本提高可靠性，提供了容错和恢复机制	低延迟数据访问，比如毫秒级，低延迟与高吞吐率
高容错性，数据自动保存多个副本，副本丢失后，自动恢复	小文件存取，占用 NameNode 大量内存，寻道时间超过读取时间
适合批处理，移动计算而非数据，数据位置暴露给计算框架	并发写入、文件随机修改，一个文件只能有一个写者，仅支持 append
适合大数据处理，GB、TB、甚至 PB 级数据，百万规模以上的文件数量，10K+节点规模
流式文件访问，一次性写入，多次读取，保证数据一致性

1、HDFS 不适合存储小文件：
元信息存储在 NameNode 内存中，一个节点的内存是有限的。存取大量小文件消耗大量的寻道时间，类比拷贝大量小文件与拷贝同等大小的一个大文件。
NameNode 存储 block 数目是有限的。一个 block 元信息消耗大约 150 byte 内存，存储 1 亿个 block，大约需要 20GB 内存。如果一个文件大小为 10K，则 1 亿个文件大小仅为1TB（但要消耗掉 NameNode 20GB内存）。

4、学习内容

上节学习内容：Hadoop伪分布与完全分布式的安装
下节学习内容：HDFS 在 Eclipse 上的开发API

.道不虚行

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HDFS 基础入门了解

HDFS 基础使用（一）1、HDFS 前言2、HDFS 相关概念和特性2.1、HDFS 设计思路2.2、HDFS 架构2.3、概念和特性3、HDFS 优缺点1、HDFS 前言HDFS：Hadoop Distributed File System Hadoop 分布式文件系统，主要用来解决海量数据的存储问题。1、设计思想分而治之：将大文件，大批量文件，分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析。2、在大数据系统架构中的应用为各类分布式运算框架（MapReduce
复制链接

扫一扫

专栏目录