Hadoop
初于久歌
世上无难事,只要肯登攀
展开
-
MapReduce核心思想
MapReduce核心思想需求:有一个五层的图书馆,需要获取图书馆中一共有多少本书。(1)只有一个人时,是能一本一本的数!工作量巨大,耗时较长。(2)分配五个人由你支配。此时你怎么支配?五个人,每个人数一层的书量最终将五个人的量汇总求和,就是图书馆中最终书的数量。MapReduce的思想核心是==“分而治之,先分后合”。即将一个大的、复杂的工作或任务,拆分成多个小的任务,并行处理,最终进...原创 2019-11-18 20:43:58 · 4300 阅读 · 1 评论 -
MapReduce计算任务的步骤
mapReduce编程模型的总结:=事实上MapReduce的开发一共有八个步骤其中map阶段分为2个步骤,shuffle阶段4个步骤,reduce阶段分为2个步骤第一步:设置inputFormat类,将数据切分成key,value对,输入到第二步第二步:自定义map逻辑,处理第一步的输入数据,然后转换成新的key,value对进行输出第三步:对输出的key,value对进行分区。相同...原创 2019-11-14 20:43:24 · 2431 阅读 · 0 评论 -
添加新的节点到集群的步骤
添加新的节点到集群的步骤需求基础:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集...转载 2019-11-06 21:33:21 · 1636 阅读 · 0 评论 -
DataNode功能详解
Datanode功能一共分为三点一、负责管理它所在结点上存储的数据的读写,及存储数据。一般是文件系统客户端需要请求对指定数据结点进行读写操作,Datanode作为数据结点的服务进程来与文件系统客户端打交道。。二、向Namenode结点报告状态。每个Datanode结点会周期性地向Namenode发送心跳信号和文件块状态报告。(心跳是每3秒一次,心跳返回结果带有namenode给该datano...原创 2019-11-05 09:30:55 · 13845 阅读 · 0 评论 -
NameNode作用
HDFS-NameNode作用一共分为三点一、维护管理HDFS集群中文件系统的名字空间(元数据信息)列如打开文件系统、关闭文件系统、重命名文件或者目录等.二、Namenode节点负责确定指定的文件块到具体的Datanode结点的映射关系。在客户端与数据节点之间共享数据。三、管理Datanode结点的状态报告,包括Datanode结点的健康状态报告和其所在结点上数据块状态报告,以便能够及时...原创 2019-11-05 09:23:05 · 7320 阅读 · 0 评论 -
Hadoop的起源及发展历程
Hadoop之父Doug CuttingHadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的三篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储—...原创 2019-11-05 09:10:15 · 9348 阅读 · 1 评论