MapReduce
文章平均质量分 74
中琦2513
天道酬勤
展开
-
MapReduce--WordCount的另一种编写方式
MapReduce的默认编写及调用方式我们都知道,Hadoop是最早产生的用来解决大数据处理的开源框架。在不停的发展迭代过程中,现在的Hadoop已经发展成为具有四大核心组件的一个基础平台:1、HDFS:Hadoop的分布式文件系统2、MapReduce:分布式计算程序的编成框架3、YARN:资源调度系统/分布式的操作系统4、Common:Hadoop中的,以上三大组件的底层支原创 2017-10-28 14:51:07 · 45785 阅读 · 0 评论 -
MapReduce--7--求共同好友--改进版JobControl
在上一节MapReduce--6--求共同好友中,我们发现,一个需求得出解,需要有两个MapReduce程序,那么如果碰到类似的需要运行多个有依赖关系的Job时,我们可以使用JobControl这个工具类,来管理多个具有依赖关系的job的运行, 所以上一MapReduce案例,我做了如下改写:请看具体的代码实现:package com.ghgj.mazh.mapredu原创 2017-10-25 19:46:14 · 46603 阅读 · 0 评论 -
MapReduce--8--求互为好友的好友对
MapReduce面试题2--求互为好友的好友对1、数据格式A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K数据的格式以“:”分割成两部分,前面是用户,后原创 2017-10-25 18:52:03 · 48184 阅读 · 0 评论 -
MapReduce--9--求变动版本
MapReduce面试题3--求变动版本1、数据现在有如下一份数据:20170308,黄渤,光环斗地主,8,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,5,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,7,360手机助手,0.1版本,北京20170308,黄渤,光环斗地主,10,360手机助手,0.2版本,北京2017030原创 2017-10-25 19:53:53 · 46997 阅读 · 0 评论 -
MapReduce编程案例系列篇(01-15)
由于本人最开始接触大数据工作,主要以写MapReduce程序为主,虽然现在有流行的言论称MapReduce这种运行很慢的分布式计算编程框架将要被各种内存计算框架取代。但是MapRedcue也会吸收很多流行的内存计算的各种优点,我相信,将来,MapReduce绝对不会沦落到要淘汰的地步。甚至会后来居上。在此,本人总结一篇关于MapReduce编程的各种典型应用场景编程案例,便于大家查阅学习...原创 2017-10-23 18:27:32 · 68971 阅读 · 10 评论 -
MapReduce编程模型
原创 2018-06-29 07:09:53 · 37785 阅读 · 0 评论 -
MapReduce--10--学生成绩(基础版)--需求1
对于刚入门MapReduce的同学来说,学会mapreduce的基本编程套路,懂得mapreduce是如何对于大批量数据集做分布式运算的是非常关键的。这里有一个需求,增强各位对mapreduce编程的理解首先看数据:computer,huangxiaoming,85computer,xuzheng,54computer,huangbo,86computer,liutao,85...原创 2019-06-17 20:35:28 · 15471 阅读 · 1 评论 -
MapReduce--11--学生成绩(基础版)--需求2
对于刚入门MapReduce的同学来说,学会mapreduce的基本编程套路,懂得mapreduce是如何对于大批量数据集做分布式运算的是非常关键的。这里有一个需求,增强各位对mapreduce编程的理解首先看数据:computer,huangxiaoming,85computer,xuzheng,54computer,huangbo,86computer,liutao,85...原创 2019-06-17 20:48:00 · 14200 阅读 · 0 评论 -
MapReduce--12--学生成绩(增强版)--需求1
题目描述关于对于学生成绩相关的练习题,之前是一个入门级别的需求,现在对这些需求进行增强,首先看数据的改变:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...原创 2019-06-17 21:28:11 · 14601 阅读 · 5 评论 -
MapReduce--14--学生成绩(增强版)--需求3
题目描述关于对于学生成绩相关的练习题,之前是一个入门级别的需求,现在对这些需求进行增强,首先看数据的改变:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...原创 2019-06-18 10:25:30 · 14148 阅读 · 2 评论 -
MapReduce--3--常用计数器详解
In this post I would like to explain the meaning of the Hadoop counters (the ones which you can generally see after the job completion). I have been analyzing the starvation of long running jobs in原创 2017-10-20 12:37:28 · 47589 阅读 · 0 评论 -
MapReduce--6--求共同好友
MapReduce面试题1--求共同好友1、数据格式现有一份数据如下:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K数据的格式以“:”分割成原创 2017-10-25 18:08:03 · 49282 阅读 · 3 评论 -
MapReduce--1--入门程序WordCount
MapReduce界的helloworld程序就是WordCount程序以下是WordCount程序的业务逻辑图:下面是具体代码,基本都注释,只要对MapReduce稍微有所了解,都是能看得懂,如若看懂,可留言私聊、package com.ghgj.mazh.mapreduce.wc.demo1;import java.io.IOException;原创 2017-10-23 12:55:36 · 51172 阅读 · 1 评论 -
Hadoop源码解析之: TextInputFormat如何处理跨split的行
我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理: 对输入数据进行切分,生成一组split,一个split会分发给一个mapper进行处理。 针对每个split,再创建一个RecordReader读取Split内的数据,并按照的形式组织成一条record传给map函数进行处理。最常见的FormatInput就是TextInput原创 2017-10-05 17:55:19 · 45474 阅读 · 0 评论 -
Hadoop - MapReduce MRAppMaster-剖析
一 概述 MRv1主要由编程模型(MapReduce API)、资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成。而YARN出现之后,资源管理模块则交由YARN实现,这样为了让MapReduce框架运行在YARN上,仅需要一个ApplicationMaster组件完成作业控制模原创 2017-09-27 17:29:30 · 45695 阅读 · 0 评论 -
MapReduce - 性能调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的原创 2017-09-27 17:31:59 · 45481 阅读 · 0 评论 -
MapReduce--2--MapReduce全局计数器
MapReduce的全局计数器1.1、介绍计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们可以在程序的某个位置插入计数器,记录数据或者进度的变化情况。 MapReduce 计数器(Counter)为我们提供一个窗口,用于观察 MapReduce Job 运行期的各种细节数据。对MapReduce性能调优很有帮助,MapReduce性能优化的评估大部分都原创 2017-10-23 13:29:17 · 48797 阅读 · 2 评论 -
MapReduce--4--Combiner做MapTask局部合并
MapReduce中的Combiner详解1、什么是CombinerCombiner是MapReduce程序中Mapper和Reducer之外的一种组件,它的作用是在maptask之后给maptask的结果进行局部汇总,以减轻reducetask的计算负载,减少网络传输2、Combiner的编写方式Combiner和Reducer一样,编写一个类,然原创 2017-10-23 17:49:54 · 46701 阅读 · 0 评论 -
MapReduce之数据读取组件InputFormat原理解析
splits and records一个输入split就是一个由单个map来处理的输入块。每一个map只处理一个split。每个分片被切分成若干 records,每个record就是一个键/值对,map循环处理记录。split和record都是逻辑性概念。/** * InputSplit represents the data to be processed by an indivi原创 2017-10-25 08:08:15 · 46073 阅读 · 0 评论 -
MapReduce--5--单词去重WordDistinctMR
MapReduce编程之单词去重在MR编程中,最典型的业务就是求sum,max,min,avg,distinct, group by 还有 join 等操作的实现了。事实上,无论是那种业务。 MapReduce的编程框架已经决定了要把mapper阶段计算出来的key-value会按照key做组划分。所以reduceTask当中的reduce方法,其实接收到的参数就是key相同的一组ke原创 2017-10-25 12:43:10 · 48702 阅读 · 2 评论 -
MapReduce--13--学生成绩(增强版)--需求2
题目描述关于对于学生成绩相关的练习题,之前是一个入门级别的需求,现在对这些需求进行增强,首先看数据的改变:computer,huangxiaoming,85,86,41,75,93,42,85computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85...原创 2019-06-17 21:46:08 · 13744 阅读 · 2 评论