MapReduce
jiewuyou
爱编程不爱bug
展开
-
加速MapReduce2
和MR1相比,MR2出现了性能降低。博客将介绍Cloudera的工程师对MR2进行改进的方法。通过这些改进,MR2的性能和MR1一样,甚至更好。原创 2014-03-04 11:42:23 · 2585 阅读 · 0 评论 -
MapReduce获取分片数目
MapReduce Application与文件数、分块大小、用户指定的Mapper数有关,但具体的对应关系是什么?本文将进行分析原创 2014-06-19 21:26:57 · 1996 阅读 · 0 评论 -
MapReduce全局变量之捉虫记
写MapReduce程序时候,有时候需要用到全局变量,常用的全局变量实现由三种方式:Configuration设置、DistributedCache、文件传参。博主在使用Configuration时,在Mapper中却没法读取全局变量。请看博主是如何一步一步找到问题所在的原创 2014-06-11 19:53:44 · 1511 阅读 · 0 评论 -
MapReduce之二次排序
本文介绍了MapReduce的二次排序实现细节原创 2014-04-14 11:58:03 · 1920 阅读 · 0 评论 -
MRv1到MRv2
Hadoop升级到2代的时候,MapReduce也发生了一些变化,本文将介绍MRv1到MRv2的一些变化原创 2014-07-13 20:26:49 · 4496 阅读 · 0 评论 -
百亿级日志处理稳定性保证的一些技巧
为了给各个业务出报表,我们每天会处理几百亿条原始日志。例行任务用MR/Spark程序编写,为了保证各个业务线在上班前正常看到数据,对例行任务的稳定性提出了要求。由于我们会依赖很多中间层数据,集群偶尔异常、数据存在倾斜等问题,这对我们的例行任务带来了很大的挑战。针对遇到的问题,采用“兵来将挡,水来土掩”的方案,各个击破常见异常:依赖未生成当天任务依赖的数据,部分是前一天的数据,部分是当天其他任务的生成原创 2017-06-22 18:51:41 · 961 阅读 · 0 评论