hadoop
Enockipp
目前小硕在读中
展开
-
hadoop streaming 输出数据分割与二次排序
输出数据分割 默认情况下Streaming框架将map输出的每一行第一个”\t”之前的部分作为key,之后的部分作为value,key\tvalue又作为reduce的输入。可以用-D stream.map.output.field.separator改变map输出中key和value的分隔符,用-D stream.num.map.output.key.fields设置分隔符的位置,该位置之转载 2015-07-30 11:32:28 · 12446 阅读 · 0 评论 -
hadoop相关优化参数
hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些值 使作业运行效率达到最优。 程序编写规范 (1)设置Combiner 如果是一大批MR程序,如果可以设置一个Combiner,Combiner可减少Map Task中间输出结果,从而减少各个Reduce Task的远程拷贝数据 量,最终表现为Map Task和Reduce Task执行时间缩短。转载 2016-10-10 10:41:18 · 849 阅读 · 0 评论 -
如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来看几个名词: block_size : hdfs的文件块大小,默认为64M,可以通过参转载 2016-09-27 12:32:33 · 449 阅读 · 0 评论 -
Hadoop中Combiner的使用
转自:http://blog.csdn.net/ipolaris/article/details/8723782 在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出。下面以《Hadoop in a转载 2017-03-14 10:23:38 · 760 阅读 · 0 评论