mapduce中自定义分组

1.对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件

2.需要自定义改造两个机制:
**1、改造分区的逻辑,自定义一个partitioner
**2、自定义reduer task的并发任务数

3.代码如下:

public class FlowSortMR {

    public static class FlowSumAreaMapper extends Mapper<LongWritable, Text, Text, FlowBean>{

        @Override
        protected void map(LongWritable key, Text value,Context context)
                throws IOException, InterruptedException {

            //拿一行数据
            String line = value.toString();
            //切分成各个字段
            String[] fields = StringUtils.split(line, "\t");

            //拿到我们需要的字段
            String phoneNB = fields[1];
            long u_flow = Long.parseLong(fields[7]);
            long d_flow = Long.parseLong(fields[8]);

            //封装数据为kv并输出
            context.write(new Text(phoneNB), new FlowBean(phoneNB,u_flow,d_flow));

        }


    }


    public static class FlowSumAreaReducer extends Reducer<Text, FlowBean, Text, FlowBean>{

        @Override
        protected void reduce(Text key, Iterable<FlowBean> values,Context context)
                throws IOException, InterruptedException {

            long up_flow_counter = 0;
            long d_flow_counter = 0;

            for(FlowBean bean: values){

                up_flow_counter += bean.getU_load();
                d_flow_counter += bean.getD_load();


            }

            context.write(key, new FlowBean(key.toString(), up_flow_counter, d_flow_counter));



        }

    }

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(FlowSortMR.class);


        job.setMapperClass(FlowSumAreaMapper.class);
        job.setReducerClass(FlowSumAreaReducer.class);

        //设置我们自定义的分组逻辑定义
        job.setPartitionerClass(AreaPartitioner.class);


        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        //设置reduce的任务并发数,应该跟分组的数量保持一致
        job.setNumReduceTasks(6);


        FileInputFormat.setInputPaths(job, new Path("F:/hadoop/flow/input"));

        FileOutputFormat.setOutputPath(job, new Path("F:/hadoop/flow/output6"));



        System.exit(job.waitForCompletion(true)?0:1);


    }


}

4.运行结果:
这里写图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值