Hadoop学习之HDFS读写流程

最新推荐文章于 2024-05-04 21:05:33 发布

小飞鱼_bigdata

最新推荐文章于 2024-05-04 21:05:33 发布

阅读量533

点赞数 3

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zryowen123/article/details/77659239

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

向HDFS写数据流程：

1）client向NameNode发起写数据请求；

2）NameNode检查文件是否存在，client是否有写入权限，成功会为向client返回一个通过的信息，失败会让client抛出异常；

3）开始写文件，客户端会将文件切分成多个packets，并以数据队列”data queue”的形式管理，然后向NameNode申请blocks信息，获取DataNode列表；

4）以pipeline的形式将packets写入DataNode中；

5）最后一个DataNode写入成功后会返回一个”ack packet”至client，client中会维护着”ack queue”(确认队列)，成功收到返回后，会从”ack queue”中删除相应的”ack packet”；

6）如果传输过程中某个DataNode出现故障，pipeline会将该DataNode移除，剩下的DataNode会继续以pipeline形式传输，NameNode会分配一个新的DataNode保证副本数；

7）所有数据块都传完后，client会给NameNode返回一个状态信息，表示写入成功或失败；

8）NameNode根据成功的状态信息更新元数据。

从HDFS读取数据流程：

1）client向NameNode发起读数据请求；

2）NameNode进行权限验证，检查文件存不存在，如果存在向client返回block列表，带有block所有副本的DataNode地址信息；

3）client从列表中选取最近的一台DataNode发送下载请求；

4）一个block读取完毕后以同样的方式读取下一个block，直到所有的block都读取完毕；

5）读的过程中会先将数据写入内存的一个环形缓冲池中，默认大小100M，达到阈值后（默认缓冲池大小的80%）会将数据溢出到磁盘。环形缓冲池的作用：使输入输出并行工作，提高效率。

小飞鱼_bigdata

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小飞鱼_bigdata CSDN认证博客专家 CSDN认证企业博客

码龄13年

28: 原创

24万+: 周排名

218万+: 总排名

7万+: 访问

: 等级

1100: 积分

25: 粉丝

98: 获赞

20: 评论

217: 收藏

私信

关注

热门文章

分类专栏

storm 1篇
scala 5篇
spark 6篇
akka 1篇
图计算 2篇
hadoop 3篇
hive 1篇
linux 3篇
算法 12篇
kafka 2篇
python 14篇
图像处理 5篇
Matplotlib 2篇
深度学习 7篇
TensorFlow 6篇
机器学习 2篇
NLP 1篇

最新评论

Spark GraphX学习（一）Connected Components算法
岸芷汀兰whu: 这。。。是API使用还差不多
Python实现分类器性能度量（混淆矩阵，正确率，准确率，召回率，ROC，AUC）
Tiger_pop: 我感觉这里有点问题，您可以说说吗？[code=python] [/code][code=python] def roc_coord(self): """ :return: roc坐标 """ xy_arr = [] tp, fp = 0., 0. neg = self.TN + self.FP pos = self.TP + self.FN for i in range(len(self.db)): tp += self.db[i][0] # 看不懂了. 这里应该替换为一个判断，在标签为1，且预测为1时，tp+ = self.db[i][0] fp += 1 - self.db[i][0] # 看不懂了. 这里应该替换为一个判断，在标签为1，且预测为1时，fp+ = 1 - self.db[i][0] [/code]
Python实现分类器性能度量（混淆矩阵，正确率，准确率，召回率，ROC，AUC）
Tiger_pop: 我感觉有个地方有问题，不知道对不对： def roc_coord(self): """ :return: roc坐标 """ xy_arr = [] tp, fp = 0., 0. neg = self.TN + self.FP pos = self.TP + self.FN for i in range(len(self.db)): tp += self.db[i][0] # 看不懂了. 这里应该替换为一个判断，在标签为1，且预测为1时，tp+ = self.db[i][0] fp += 1 - self.db[i][0] # 看不懂了. 这里应该替换为一个判断，在标签为1，且预测为1时，fp+ = 1 - self.db[i][0]
Python实现分类器性能度量（混淆矩阵，正确率，准确率，召回率，ROC，AUC）
trophyy: 这个混淆矩阵怎么画的
TensorFlow用训练好的CNN模型检测
小飞鱼_bigdata 回复 Cabbage: 看这里持久化模型那段代码https://blog.csdn.net/zryowen123/article/details/79889540

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。