Hadoop
文章平均质量分 84
eddieVim
Undefined
展开
-
大数据开发经典面试题:说一说Yarn、HDFS、MR
Yarn是什么?是Hadoop2之后推出的,用于管理集群中的资源,他有这几个角色:ResourceManager(下文简称RM)NodeManager(下文简称NM)ApplicationMaster(下文简称AppMaster)Container其中RM是整个集群的管理者,所有的资源的使用申请与释放都要向它进行汇报与调度,NM是集群中各个Node结点的管理资源,主要配合RM进行工作。这两者生命周期是从Yarn启动到结束均存在的。AppMaster与Container是对进行某一次任务的资原创 2021-01-29 11:17:08 · 376 阅读 · 0 评论 -
MapReduce实现好友推荐
MapReduce实现好友推荐问题描述给定一个好友列表,第一个为用户名,接下来为这个用户的好友。需要通过MapReduce来实现好友推荐的功能。即两个用户直接若有共同好友即可进行相互推荐,若共同好友越多,则越优先进行推荐。解决思路利用自顶向下的思路进行思考。首先,两个用户之间若已经是好友了,则无需进行相互推荐。其次,如何定义Key,让数据在Reduce阶段相遇?我们可以将关系作为Key,关系又分为直接好友关系,与间接好友关系。Map端如何处理数据?Map端主要要生成对原创 2020-11-13 15:53:30 · 1229 阅读 · 1 评论 -
MapReduce源码分析心得
源码分析分布式计算追求:计算向数据移动并行度、分而治之数据本地化读取Client没有计算发生。支撑了计算向数据移动,和计算的并行度。做的最主要的是:存储与计算解耦,就是对所要进行切片的数据进行split切片,(split == map并行度)。Split默认是与Block块数量一致,目的是为了计算向数据移动,几个Block块分布在几个地方,就起几个Map,这样就不需要让大量数据进行移动,而是只需要将Jar包分发到各个Block所在的结点进行执行即可。用户也可以对Split进行自定原创 2020-11-12 17:07:34 · 137 阅读 · 0 评论 -
MapReduce手写WordCount
MapReduce-WordCount引入依赖这里的版本应该与你自己的Hadoop版本相对应<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.2.1</version></dependency>创建主类package pro.e原创 2020-11-05 19:26:48 · 162 阅读 · 0 评论 -
Hadoop-Yarn作用及其优点
YarnHadoop2.x版本出现角色ResourceManager 管理集群资源NodeManager 管理各个结点自身资源AppMaster 一次任务调度的领导Container 容器,分配资源用于一个Task的执行资源管理RM(ResourceManager),了解集群中所有结点的资源信息。NM(NodeManager)掌握本台机器的资源信息,并需要定期向RM汇报自己的资源信息。MapReduce on YarnMR-Cli将任务所需文件(Jar(代码)、XML(参数原创 2020-11-05 10:46:06 · 2579 阅读 · 0 评论 -
随便说说HDFS(Hadoop Distributed File System)
HDFSHadoop Distributed File SystemNameNode作为HDFS的核心、大脑,NameNode负责记录文件的元数据与Block块及其副本存储的DataNode的位置信息。由于NameNode在一个HDFS集群中仅有一个,且访问频率高(每次读写操作都需要去访问它),所以NameNode将数据存放在内存中,加快访问速度。持久化由于数据都存放在内存中,所以就需要进行持久化操作,防止NameNode突然宕机而导致内存中的数据丢失,HDFS使用了两种策略进行内存的原创 2020-08-29 00:09:00 · 276 阅读 · 0 评论 -
Hadoop开发与面试重点MR-Shuffle
Shuffle即MapTask输出数据到ReduceTask接收数据这段过程做的工作。这里用两张张流程图说明Shuffle的过程。原创 2020-02-20 15:39:35 · 183 阅读 · 0 评论 -
Hadoop Distributed File System——HDFS
HADOOP——HDFS包括了「NameNode、DataNode、SecondaryNameNode」1、NameNode(NN):存放数据文件的索引。2、DataNode(DN):以块(block)的形式存放数据本身,有多个DN存放多个备份,以达到安全性更高的目的。3、SecondaryNameNode(2NN):NN的备份,用于帮助NN恢复信息,但是不能取代NN继续工作。...原创 2020-02-14 11:37:01 · 248 阅读 · 0 评论