HDFS概述和HDFS的Shell操作

最新推荐文章于 2023-05-12 14:46:57 发布

Iridescent_cy

最新推荐文章于 2023-05-12 14:46:57 发布

阅读量238

点赞数

分类专栏：总结文章标签： hadoop hdfs

本文链接：https://blog.csdn.net/weixin_45770700/article/details/103644222

版权

HDFS是Hadoop分布式文件系统，适合一次性写入、多次读取的场景，不支持低延时访问和文件随机修改。NameNode作为主节点管理命名空间和数据块映射，DataNode存储数据块并执行读写操作。HDFS文件块默认大小为128M，根据磁盘传输速率设置。常见Shell命令包括ls、mkdir、cp、mv、rm等，用于文件和目录的操作。

摘要由CSDN通过智能技术生成

HDFS定义：
HDFS(Hadoop Distributed File System),它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
使用场景：
适合一次写入，多次读取的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。
HDFS优缺点：
优点：
1.高容错性
（1）数据自动保存多个副本。它通过增加副本的形式，提高容错性。
（2）某一个副本丢失之后，它可以自动恢复。
2.适合处理大数据
（1）数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据。
（2）文件规模：能够处理百万规模以上的文件数量，数量相当之大。
3.可构建在廉价机器上，通过多副本机制，提高可靠性。
缺点：
1.不适合低延时数据访问，比如毫秒级的存储数据
2.无法高效地对大量小文件进行存储
（1）存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的；
（2）小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标
3.不支持并发写入，文件随机修改
（1）同一时间一个文件只能有一个用户执行写操作，不允许多个线程同时写；
（2）仅支持数据append追加，不支持文件的随机修改

HDFS组成架构：
1.NameNode(nn):就是Master,它是一个主管、管理者
（1）管理HDFS的名称空间
（2）配置副本策略
（3）管理数据块（Block）映射信息
（4）处理客户端读写请求
2.DataNode(dn):就是Slave.NameNode下达命令，DataNode执行实际的操作
（1）存储实际的数据块
（2）执行数据块的读写操作
3.Client:就是客户端
（1）文件切分，文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行上传
（2）与NameNode交互，获取文件的位置信息
（3）与DataNode交互，读取或者写入数据
（4）Client提供一些命令来管理HDFS，比如NameNode格式化
（5）Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作
4.Secondary NameNode:并非NameNode的热备，当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务
（1)辅助NameNode，分担其工作量，比如定期合并Fsimage和dits，并推送给NameNode
(2)在紧急情况下，可辅助恢复NameNode