MapReduce
Hadoop的两大核心!
大数据梦想家
专注与研究大数据基础,理论,架构与原型实现。
个人原创公众号「 大数据梦想家 」,每日更新大数据干货,欢迎上车!
一天的生活就是一生的缩影。在最美的年华,做最好的自己!!!
展开
-
MapReduce之自定义outputFormat
现在有一些订单的评论数据,需求: 将订单的好评与差评进行区分开来,将最终的数据分开到不同的文件夹下面去,其中数据第九个字段表示好评,中评,差评。0:好评,1:中评,2:差评。 &nbs...原创 2019-11-19 23:55:12 · 4359 阅读 · 0 评论 -
MapReduce之自定义inputFormat合并小文件
无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。 小文件的优化无非以下几种方式:在数据采集的时候,就将小文件或小批数据合成大文...原创 2019-11-19 22:33:18 · 4296 阅读 · 0 评论 -
reduce端join与map端join算法实现
本篇博客小菌为大家带来的是MapReduce中reduce端join与map端join算法的实现。reduce端join算法实现 先让我们来看下需求,有下面两种表格:订单数据表 t_order...原创 2019-11-19 16:49:56 · 4101 阅读 · 0 评论 -
MapTask,ReduceTask,MapReduce运行机制详解
在之前的博客中,小菌为大家分享了MapReduce的整体流程。这篇博客,主要针对MapTask与ReduceTask运行机制的一个详解与MapReduce总体运行机制做一个较为详细的介绍!MapTask运行机制详解以及Map任务的并行度 &nb...原创 2019-11-16 16:48:17 · 4043 阅读 · 0 评论 -
MapReduce经典简答题
在上一个阶段——HDFS,小菌出过一期HDFS的经典面试题,不知道小伙伴们掌握的怎么样吖(详情见–>《HDFS经典面试题》),本期同样在MapReduce快要结束阶段为大家带来MapResuce的经典面试题!MapReduce核心思想map负责切分,reduce负责合并(先分后合,分而治之)...原创 2019-11-16 14:42:45 · 4868 阅读 · 0 评论 -
MapReduce的逻辑切分split与合并combiner
在之前的博客《MapReduce中shuffle阶段概述及计算任务流程》,小菌为大家分享了MapReduce的整体计算任务流程以及shuffle阶段主要的作用。本篇博客小菌将针对MapReduce流程中的第2步——split逻辑切分与第7步——合并做一个知识面的拓展。Split的逻辑切分 ...原创 2019-11-15 09:07:51 · 4284 阅读 · 0 评论 -
MapReduce的自定义分区与ReduceTask数量
本篇博客小菌为大家带来的是MapReduce的自定义分区与ReduceTask内容的分享(ReduceMap具体计算流程见《MapReduce中shuffle阶段概述及计算任务流程》)。 在MapReduce...原创 2019-11-14 23:08:13 · 5475 阅读 · 2 评论 -
MapReduce中shuffle阶段概述及计算任务流程
在小菌上一篇博客《什么是MapReduce(入门篇)》中,小菌已经为大家介绍了MapReduce的相关概念介绍。其中谈到了MapReduce主要由Map和Reduce两个过程组成!事实上,在Map...原创 2019-11-14 18:44:50 · 5263 阅读 · 0 评论 -
MapReduce初体验——统计指定文本文件中每一个单词出现的总次数
相信小伙伴们看了小菌上一篇博客《什么是MapReduce(入门篇)》后,对MapReduce的概念有了更深的认知!本篇博客,小菌为大家带来的则是MapReduce的实战——统计指定文本文件中每一个单词出现的总次数。 &n...原创 2019-11-13 11:22:33 · 6803 阅读 · 0 评论 -
什么是MapReduce(入门篇)
在HDFS系列完结之后,小伙伴们期待的MapReduce系列已经在向大家挥手了。本篇博客,小菌将为大家带来MapReduce的入门介绍! 在正式开始之前,让我们通过一张图片回顾一下Hadoop的组成部分,以及...原创 2019-11-13 09:46:54 · 27818 阅读 · 7 评论 -
MapReduce的jobHistory介绍
我们可以通过Hadoop jar的命令来实现我们的程序jar包的运行,关于运行的日志,我们一般都需要通过启动一个服务来进行查看,就是我们的JobHistoryServer,我们可以启动一个进程,专门用于查看我们的任务提交的日志。JobHistoryServer会记录已运行完的MapReduce信息到...原创 2019-11-03 22:26:15 · 2352 阅读 · 0 评论