MapReduce进程
一个完整的MapReduce程序在分布式运行时有三类实例进程:
1) MuAppMaster:负责整个程序的过程调度及状态协调。
2) MapTask:
负责Map阶段的整个数据处理流程。
3) ReduceTask:负责Reduce阶段的整 个数据处理流程。
官方WordCount源码
采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。
常用数据序列化类型
表4-1 常用的数据类型对应的Hadoop数据序列化类型
Java类型 | Hadoop Writable类型 |
boolean | BooleanWritable |
byte | ByteWritable |
int | IntWritable |
float | FloatWritable |
long | LongWritable |
double | DoubleWritable |
String | Text |
map | MapWritable |
array | ArrayWritable |