mapreduce
古巴与八股
未来的相视一笑 只因曾经的全然相爱
展开
-
mapreduce作业接受序列化文件(SequenceFile)作为文件输入的WordCount程序
MapReduce作业接受序列化文件的输入时,可通过配置job的输入文件格式实现,具体见代码:package hadoop;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apach原创 2017-09-25 22:38:01 · 407 阅读 · 0 评论 -
hadoop 二次排序 group函数的作用的说明
hadoop mapreduce作业通过组合key实现二次排序的过程中,只要实现组合key的类就可以了。mapreduce框架本身会基于key对输出进行排序。而partion函数只为了是实现数据规模较大时,对map的输出实现分区。为启动多个reduce任务做准备。group函数也是可有可无的。group函数的作用是对key进行分组,例如对于map的结果:[(k1, k21), v1原创 2017-10-10 20:55:19 · 617 阅读 · 0 评论