先确定要加分区的位置,是在map之后加的
当需要将统计结果输出到不同的文件中就需要自定义分区并且设置:
//8 指定自定义分区器
job.setPartitionerClass(ProvincePartitioner.class);
//9 同时指定相应数量的ReduceTask
job.setNumReduceTasks(5);
默认分区器HashPartitioner,自定义一个分区类ProvincePartitioner并且让这个类继承Partitioner,还要实现getPartition()方法
public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
在getPartition()方法中写自己需要的分区需求
,再序列化的基础之上增加分区的功能
写一个分区类ProvincePartitioner
public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
@Override
public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
//获取手机号前三位prePhone
String phone = text.toString();
String prePhone = phone.substring(0, 3);
这里要注意传入的两个参数,是map的输出KV,<Text, FlowBean>
(4)在驱动函数中增加自定义数据分区设置和ReduceTask设置
//8 指定自定义分区器
job.setPartitionerClass(ProvincePartitioner.class);
//9 同时指定相应数量的ReduceTask
job.setNumReduceTasks(5);