Hadoop从入门到放弃
主要介绍hadoop的各种使用技巧,优化技巧,源码阅读
wisgood
这个作者很懒,什么都没留下…
展开
-
mapreduce程序中避免reduce输出空文件
在mapreduce里,如果某个reduce输出为空,默认也会生成一个大小为0的文件。原因是reduce写的时候,不知道会不会有输出数据,所以默认初始化了一个文件。如果没有输出,close文件最终会生成一个空文件。如下。有几个缺点: 1)生成的很多小文件,对namenode形成一定压力 2)生成的数据下个阶段处理的时候,这些空的文件会浪费掉一些计算资源。 3)看着不爽-rw-r--r--...原创 2018-05-09 11:24:06 · 8248 阅读 · 1 评论 -
新旧Java MapReduce API的差异
摘录自 Hadoop权威指南 1、版本区别Hadoop在0.20.0版本中第一次使用新的API,部分早期的0.20.0版本不支持使用旧的API,但在接下来的1.x和2.x版本中新旧API都可以使用。新旧API的差异主要有以下几点:1. 新的API放在org.apache.hadoop.mapreduce包(和子包)中,旧的API放在org.apache.hadoop.mapred中。2. 新API...原创 2015-01-12 13:59:23 · 3258 阅读 · 0 评论 -
Hadoop 常见错误处理
【错误1】12/12/05 23:11:45 INFO mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 791 bytes12/12/05 23:11:45 INFO mapred.LocalJobRunner: 12/12/05 23:11:45 WARN mapred原创 2012-12-06 15:09:28 · 2572 阅读 · 0 评论 -
MapReduce任务中文部分正常,部分乱码
集群上提交的mr任务,发现结果中有的中文正常,有的中文是论码。分析了一下,应该是集群中hadoop节点的编码配置不一样。可以加上下面的参数:mapred.child.env="LANG=en_US.UTF-8,LC_ALL=en_US.UTF-8" ;原创 2017-02-20 10:29:18 · 1168 阅读 · 0 评论 -
hadoop节点字符编码导致的reduce重复记录问题排查
hadoop节点字符编码导致的reduce重复记录问题排查原创 2017-08-25 09:58:48 · 24326 阅读 · 1 评论 -
hadoop中查找某个字符串所在的hdfs位置
hadoop中查找某个字符串所在的hdfs位置原创 2017-08-29 09:38:27 · 6401 阅读 · 0 评论 -
mapreduce中split划分分析(新版api)
面试的过程中,笔者经常喜欢问一个问题:hadoop中map数是怎么确定的?但发现还是有好多面试者都答不上来。这个问题其实算是比较基础的一个问题,对于理解mapreduce的原理很有帮助。今天有空结合源码分析一下。 本文以hadoop2.7.2的版本作为分析,代码链接如下。 —— [ github代码地址 ]本文以org.apache.hadoop.mapreduce包作为讲解(即新AP...原创 2018-01-27 10:19:29 · 14671 阅读 · 2 评论