大数据第四次课笔记

最新推荐文章于 2024-10-04 18:47:42 发布

抹茶味的西瓜汁

最新推荐文章于 2024-10-04 18:47:42 发布

阅读量68

点赞数

分类专栏：大数据文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52618349/article/details/119323722

版权

大数据专栏收录该内容

18 篇文章 0 订阅

订阅专栏

第四次课
hdfs采用Master和Slave主从架构来存储数据，由4部分组成：
HDFS Client:客户端文件按块切分，与Namenode交互获取文件的位置，与DataNode交互，读取或写入数据，提供访问hdfs的命令
NameNode:管理者管理hdfs的名称空间，数据块的位置信息，配置副本请求，处理客户端的读写请求
DataNode:具体操作者存储文件执行数据块的读写操作
Secondary NameNode:辅助元数据对NameNode的辅助对镜像进行定期合并
HDFS的功能：
1.命名空间管理，命名空间包括目录，文件和块的信息
2.块的存储和物理存储

HDFS的工作机制：
NameNode负责管理整个文件的命名信息和块信息
DataNode负责管理用户的文件数据块
DataNode会定期向NameNode汇报自身所保存的文件的块信息
客户端请求HDFS会向NameNode申请来进行访问
SecondaryNameNode会进行镜像备份和对日志与镜像进行定期合并

HDFS的写入数据的流程：
1.客户端向NameNode通信请求上传文件，NameNode检查文件是否存在，目录是否存在，向客户端返回是否可以上传
2.客户端请求第一个块应该传输到哪些DataNode服务器上，NameNode返回3个DataNode服务器的地址
3.客户端向三台DataNode 服务器中的一台来上传数据，上传完成后第一台DataNode会向第二台DataNode上传数据
上传数据以packet为单位（64KB），第一台DataNode也会向第三台DataNode上传数据

HDFS的读取数据的流程：
1.客户端和NameNode通信查询元数据的信息，找出块所在的DataNode服务器
2.挑选一台最近的DataNode请求建立socket通信
3.DataNode开始发送数据，以packet(64KB)为单位进行发送和校验
4.客户端以packet(64KB)为单位接收，先保存在本地缓存，然后写入到目标文件。

解压文件：

yarn jar /opt/wordcount0801.jar com.zr.WordCountDriver /word.txt /output0801 jar包驱动类文件新文件名可以实现用hdfs解压eclipse中的javajar包

查看文件内容

抹茶味的西瓜汁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。