生产实习日志

weixin_69668557

于 2024-06-05 00:19:40 发布

阅读量240

点赞数 1

文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_69668557/article/details/139456895

版权

今天是生产实习大数据实训第二天，通过两天的学习，我获得了许多的知识。

Hadoop是一个开源的分布式计算框架，主要用于处理大规模数据集。在Hadoop中进行手机流量日志分析项目，主要是为了收集、处理和分析移动设备产生的海量网络流量数据。

项目背景

手机流量统计分析项目

实习内容

需求：

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。

思路：
根据手机号进行分组，然后把该手机号对应的上下行流量加起来
Mapper: 把手机号、上行流量、下行流量拆开
把手机号作为key，把Access作为value写出去
Reducer形如：(“手机号”,<Access,Access>)
自定义分区类（需要继承Partitioner抽象类），并覆写getPartition()方法
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/weixin_63192724/article/details/139454442

开发步骤：
（1）自定义Access类

包括属性：手机号、上行流量、下行流量、总流量

（2）自定义Map任务类（Map Task）

对每一行日志内容进行拆分，Map输出数据为：

phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)

（3）编写Reduce任务类（Reduce Task）

对每个手机号的流量进行汇总，Map输出数据为：

phone==>Access(手机号,上行流量和,下行流量和)

也可以优化为：

phone==>Access(NullWritable对象,上行流量和,下行流量和)

（4）编写分区处理类

继承org.apache.hadoop.mapreduce.Partitioner类，"13"开头的手机号交给第一个ReduceTask任务处理，最终输出到0号分区，"15"开头的手机号交给第二个ReduceTask任务处理，最终输出到1号分区，其余手机号交给第三个ReduceTask任务处理，最终输出到2号分区

weixin_69668557

博客等级

码龄3年

6
原创

13
点赞

24
收藏

19
粉丝

关注

私信

热门文章

最新评论

生产实习日志
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【无标题】
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。