【手机流量分析项目——生产实习Day2】

Caesar'

已于 2024-06-05 22:39:26 修改

阅读量337

点赞数 3

文章标签：程序人生学习方法

于 2024-06-04 21:38:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63192724/article/details/139454442

版权

我的生产实习项目实训经历Day2

引言

我是一名计算机学院大三学生。本文将分享我的实习第二天的经历和所获得的收获。

项目背景

手机流量统计分析项目

实习内容

需求：

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和）,并且：将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去。

13* ==> …
15* ==> …
other ==> …

其中，access.log数据文件

第二个字段：手机号
倒数第三个字段：上行流量
倒数第二个字段：下行流量

思路：

根据手机号进行分组，然后把该手机号对应的上下行流量加起来
Mapper: 把手机号、上行流量、下行流量拆开
把手机号作为key，把Access作为value写出去
Reducer形如：(“手机号”,<Access,Access>)
自定义分区类（需要继承Partitioner抽象类），并覆写getPartition()方法

开发步骤：

（1）自定义Access类

包括属性：手机号、上行流量、下行流量、总流量

（2）自定义Map任务类（Map Task）

对每一行日志内容进行拆分，Map输出数据为：

phone==>Access(手机号,该行手机号的上行流量,该行手机号的下行流量)

（3）编写Reduce任务类（Reduce Task）

对每个手机号的流量进行汇总，Map输出数据为：

phone==>Access(手机号,上行流量和,下行流量和)

也可以优化为：

phone==>Access(NullWritable对象,上行流量和,下行流量和)

（4）编写分区处理类

继承org.apache.hadoop.mapreduce.Partitioner类，"13"开头的手机号交给第一个ReduceTask任务处理，最终输出到0号分区，"15"开头的手机号交给第二个ReduceTask任务处理，最终输出到1号分区，其余手机号交给第三个ReduceTask任务处理，最终输出到2号分区。

今日实习收获

在今天生产实习中，我收获了很多知识和经验。首先，我学会了如何在实际工作中运用所学的理论知识。其次，我提高了自己问题解决能力。最重要的是，我对Linux虚拟机以及MapReduce的工作流程有了更深入的了解，这将对我的未来职业发展产生积极的影响。

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Caesar' CSDN认证博客专家 CSDN认证企业博客

码龄3年

11: 原创

140万+: 周排名

9万+: 总排名

9736: 访问

: 等级

367: 积分

188: 粉丝

253: 获赞

3: 评论

203: 收藏

私信

关注

热门文章

最新评论

【手机流量分析项目生产实习——Day3】
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【Hadoop伪集群安装——生产实习Day1】
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【手机流量分析项目——生产实习Day2】
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。