![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
我命由我不由TIAN
这个作者很懒,什么都没留下…
展开
-
MAPREDUCE的过程
mapreduce是hadoop的核心组件之一,主要是负责分布式计算的,它的核心思想就是“分而治之”。它的整个流程是什么样的呢,接下来我们就一步一步的介绍。大致可以分为三个阶段:第一阶段是map阶段,第二阶段是shuffle阶段,第三阶段是reduce阶段。其中第一阶段的map阶段分为两步:第一步:首先通过InputFormat将文件读取进来,并进行切分,切分成(key,value)对的形式,key是该行数据的偏移量,value是这一行数据。切分完成后以(key,value)的形式发送给map端。第原创 2020-05-20 16:30:19 · 4637 阅读 · 0 评论 -
HDFS写入流程
废话不多说,先上图科学已经证明,人记住一张图片要比记住一堆文字要容易的多,这就是我们右脑的作用。那么所以我觉得先记住一张图,以后只要想到这张图那么HDFS整个的文件写入流程就会很容的回想起来。那么接下来我们就分析一下这张图中都有哪些步骤:第一步:客户端向NN发送写入文件申请,这时NN就要看看我系统里边有没有你要写入的这文件,要是有不好意思,你就不能写入了,要是没有OK可以写入。第二步:客户端继续请求上传第一个block并问NN,我这块应该往哪里上传呢?这时NN就会根据机架感知原理以及我们设置的文件原创 2020-05-20 15:28:07 · 413 阅读 · 0 评论 -
HDFS的读取流程
HDFS的读取流程今天我们来说一下HDFS的读取流程是什么样的,首先我们来看一张图片这里我们可以清楚的看到HDFS的读取流程共分以下几步:第一步:客户端向NN申请要读取的文件的block块的位置信息列表第二步:NN根据情况向客户端返回全部或者一部分block块所在DN的位置信息列表,这个列表是经过排序以后返回的,排序的规则有以下两种:首先根据机架感知原理,距离越靠近客户端的排名越靠前;其次,根据NN与DN之间的心跳机制,汇报超时的DN地址的排名会靠后第三步:客户端会根据读取到的block位置信息原创 2020-05-20 11:18:37 · 314 阅读 · 0 评论 -
大数据之hadoop它是怎么来的呢?
在信息爆炸式增长的今天,大数据技术也越来越成熟,它也与我们的每一个人的生活息息相关。一提到大数据技术首先我们肯定会想到hadoop,很多人对这个名字非常的熟悉,但是具体它到底是什么可能就不是很清楚,今天我们就沿着这个思路说一说hadoop到底是什么,它是怎么来的呢?要说hadoop的产生,就得先从Nutch这个项目说起。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、网页索引、网页查询等功能,但是随着抓取的数量越来越多,出现了两个难题:数十亿网页的存储以及这些网页的索引计算问题。没过几年,原创 2020-05-19 18:35:16 · 442 阅读 · 0 评论