Hadoop
于鲲LaNce
咸鱼
展开
-
Hadoop学习(一)Hadoop介绍
Hadoop1.1 产生背景HADOOP最早起源于Nutch。Nutch要构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,随着抓取网页数量的增加,如何解决数十亿网页的存储和索引成为问题。2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。分布式文件系统(GFS),可用于处理海量网页的存储;分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题;BigTab...原创 2019-08-23 16:38:14 · 365 阅读 · 0 评论 -
Hadoop学习(二) HDFS介绍
2.1 产生背景及定义2.1.1 背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。 HDFS只是分布式文件管理系统中的一种。2.1.2 HDFS(Hadoop Distributed File System)Hadoop分布式文件系统,主要用来解决海量数据...原创 2019-08-23 16:45:52 · 135 阅读 · 0 评论 -
Hadoop学习(三) HDFS组成架构
HDFS按Master和Slave结构分NameNode、SecondaryNameNode、DataNode几个角色原创 2019-08-23 16:47:58 · 331 阅读 · 0 评论 -
Hadoop学习(四) NameNode
是Master节点,是大领导。职责:管理HDFS的名称空间;管理数据块映射;处理客户端的读写请求;配置副本策略;关于NameNode中的元信息:当一个客户端请求一个文件或者存储一个文件时,它需要先知道具体到哪个DataNode上存取,获得这些信息后,客户端再直接和这个DataNode进行交互,而这些信息的维护者就是NameNode。NameNode管理着文件系统命名空间,它维护着文件系统...原创 2019-08-23 16:52:30 · 790 阅读 · 0 评论 -
Hadoop学习(五)SecondaryNameNode
是一个小弟;是NameNode的冷备份;当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。辅助NameNode,分担其工作量,SecondaryNameNode负责定时默认1小时,从namenode上获取fsimage和edits来进行合并,然后再发送给namenode。减少namenode的工作量。在紧急情况下,可辅助恢复NameNode。热备份冷备份...原创 2019-08-23 16:54:51 · 622 阅读 · 0 评论