HDFS
文章平均质量分 57
HDFS相关笔记
南洲.
写以致用,学以致深
展开
-
HDFS概述
1、HDFS 产出背景及定义(1)HDFS 产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。(2)HDFS 定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色原创 2021-07-25 20:29:20 · 173 阅读 · 0 评论 -
DateNode的工作机制
DataNode的工作机制:(1)一个数据块在 DataNode 上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode 启动后向 NameNode 注册,通过后,周期性(6 小时)的向 NameNode 上报所有的块信息。DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时。DN 扫描自己节点块信息列表的时间,默认 6 小时。(3)心跳是每 3 秒一次,心跳返回结果带有 NameNode 给该 Data原创 2021-07-23 22:28:01 · 371 阅读 · 1 评论 -
NameNode 和 和 SecondaryNameNode工作机制
1、引入问题:NameNode 中的元数据是存储在哪里的?首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。**因此原创 2021-07-23 22:00:20 · 136 阅读 · 0 评论 -
HDFS读写数据流程
1、hdfs的写数据流程(1)客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。(2)NameNode 返回是否可以上传。(3)客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。(4)NameNode 返回 3 个 DataNode 节点,分别为 dn1、dn2、dn3。(5)客户端通过 FSDataOutputStream 模块请求 dn1 上传数据,dn1 收到请求转载 2021-07-23 21:40:02 · 177 阅读 · 0 评论 -
HDFS的API操作
对于hdfs的shell命令操作在前一篇的笔记中已经学习,最近对hdfs的API操作进行了学习,主要包括:1、hadoop的连接和关闭2、文件目录的创建3、文件上传4、文件下载5、文件删除6、文件的更名和移动7、获取文件详细信息8、判断是文件还是目录全部操作代码如下:package com.yasin.hdfs;/*1.获取一个客户端对象2.执行相关的操作命令3.关闭资源*/import org.apache.hadoop.conf.Configuration;impo原创 2021-07-23 20:56:14 · 1362 阅读 · 0 评论 -
HDFS的shell命令
1、启动和帮助命令1)启动 Hadoop 集群(方便后续的测试)[yasin@hadoop102 hadoop-3.3.1]$ sbin/start-dfs.sh[yasin@hadoop103 hadoop-3.3.1]$ sbin/start-yarn.sh2)-help:输出这个命令参数[yasin@hadoop102 hadoop-3.3.1]$ hadoop fs -help rm3)创建/sanguo 文件夹[yasin@hadoop102 hadoop-3.3.1]$ had原创 2021-07-19 20:59:14 · 168 阅读 · 0 评论