Hadoop
文章平均质量分 90
风_间
不积跬步无以至千里
展开
-
Hadoop必知必会——重要部分整理(二)
上一篇的传送门:Hadoop必知必会——重要部分整理(一) 一、HDFS在读文件时,如果一个块突然坏了 客户端读取完DataNode上的块之后会进行checksum验证,就是把客户端读取到本地的块与HDFS上的原始块进行校验,如果发现校验结果不一致,客户端会通知通知NameNode,然后再从下一个拥有该block副本的DataNode继续读。 二、HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了 客户端上传文件时与DataNode建立pipeline管道,管道正是向客户端DataNode发送原创 2021-06-29 16:32:24 · 1138 阅读 · 0 评论 -
Hadoop必知必会——重要部分整理(一)
一、hadoop mapreduce工作原理 1、在MapReduce程序读取文件的输入目录上存放相应的文件。 2、客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中的参数配置形成一个任务分配规划。 3、客户端提交切片信息给Yarn,Yarn中的resourcemanager启动MRAPPmaster。 4、MrAPPmaster启动后根据本次job的描述信息,计算出需要maptask实例对象,然后向集群申请机器启动相应数量的maptask进程。 5、Maptask利用客户端指定原创 2021-06-29 16:26:14 · 1297 阅读 · 1 评论 -
HDFS读写流程图文详解,及职责详解
1、写数据流程 (1) 客户端client通过Distributed FileSystem模块向NameNode请求上传文件,NameNode会检查目标文件是否已经存在,父目录时候存在。 (2) NameNode会返回是否可以上传,如果不可以上传则返回异常。 (3) 当确定可以上传是,客户端client会请求第一个block上传到哪几个datanode服务器上。 (4) NameNode会返回3个DataNode节点,设计为dn1,dn2,dn3 (5) 客户端client会通过FSDataOutputS原创 2021-06-18 10:55:48 · 2105 阅读 · 0 评论
分享