Hadoop-MapReduce
文章平均质量分 62
yanliang1
Java,关心一切新技术
展开
-
Hadoop MapReduce 计数器
Hadoop 为每个 job 维护了一系列的内置计数器。计数器被分为组通过定义一个 Java 枚举类型可以在代码中自定义计数器。枚举类型名称是计数器组名,枚举字段是计数器名称。public class SalarySumTemplate extends Configured implements Tool { enum COUNTER {原创 2013-11-20 20:46:23 · 965 阅读 · 0 评论 -
Hadoop MapReduce Shuffle and Sort
Hadoop 确保每个reduce 的输入都是按 key 排序的。系统执行排序的过程称为shuffle.Map 端,map 产生输出时,并不是简单的把数据写到磁盘。会先缓冲在内存中,并进行一些预排序。每个map 任务都有一个环形内存缓冲区,默认为100M,通过io.sort.mb设置,一旦缓冲区内容达到80%(io.sort.spill.percent,设置为0.80),后台线原创 2013-11-21 22:00:19 · 1054 阅读 · 0 评论 -
Hadoop MapReduce 过程概述
一个MapReduce任务就是一个Job。Job分为2个阶段:Map 和 ReduceMap函数接收一个形式的输入,然后产生一个形式的中间输出,Hadoop会把相同中间Key值的value集合在一起传给reduce函数。reduce 函数接收key,(list of values)> 形式的输入,然后对values集合进行处理,输出形式。一个MapReduce Job 包括原创 2013-12-20 08:16:54 · 1268 阅读 · 0 评论 -
Hadoop MapReduce 深入MapReduce Job 提交
一个job的运行,涉及4个实体:客户端,JobTracker,TaskTracker,HDFS【客户端】使用Job.submit()提交任务,任务提交后。1 向 jobtracker 请求一个新的作业ID (JobTracker.getNewJobId())2 检查输出目录,例如输出目录已经存在,就不提交3 计算作业的输入数据分片。如果分片无法计算(输入路径不存在),就原创 2013-12-20 08:22:50 · 2650 阅读 · 0 评论