即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到reduce节点,对其压缩可以提高很多性能,这些工作只要设置两个属性即可,我们来看下代码怎么设置:
1)给大家提供的hadoop源码支持的压缩格式有:BZip2Codec 、DefaultCodec
Map输出端压缩,但是Reduce是没压缩的。要想输出压缩,要设置reduce输出端压缩。Map输出端的压缩格式不影响Reduce端的。
Reduce输出端采用压缩
基于workcount案例处理
1)修改驱动