手机流量统计_idea上下行流量相加-CSDN博客

本文链接：https://blog.csdn.net/weixin_69071279/article/details/139474214

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。

根据手机号进行分组，然后把该手机号对应的上下行流量加起来
使用MapReduce：（1）Mapper: 把手机号、上行流量、下行流量拆开把手机号作为key，把Access作为value写出去（2）Reducer形如：(“手机号”,<access,access> )
自定义分区类（需要继承Partitioner抽象类），并覆写 getPartition()方法.

创建虚拟机CentOS7，Hadoop3单机伪分布集群安装
在CentOS7上安装idea，配置maven
自定义Access类包括属性：手机号、上行流量、下行流量、总流量
自定义Map任务类（Map Task）对每一行日志内容进行拆分，Map输出数据为： phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量
编写Reduce任务类（Reduce Task）对每个手机号的流量进行汇总，Map输出数据为： phone==>Access(手机号,上行流量和,下行流量和) 也可以优化为： phone==>Access(NullWritable对象,上行流量和,下行流量和
继承org.apache.hadoop.mapreduce.Partitioner 类，"13"开头的手机号交给第一个ReduceTask任务处理，最终输出到0号分区，"15"开头的手机号交给第二个ReduceTask任务处理，最终输出到1号分区，其余手机号交给第三个 ReduceTask任务处理，最终输出到2号分区
将编写的MapReduce程序打包并上传至，启动集群的Linux系统