文章目录
一、提出任务
- 已知有以下用户访问历史数据,第一列为用户访问网站的日期,第二列为用户名:
现需要根据上述数据统计每日新增的用户数量,期望统计结果
- 即2022-01-01新增了3个用户(分别为mike、alice、brown),2022-01-02新增了1个用户(green),2022-01-03新增了两个用户(分别为smith、brian)。
- 预备工作:启动集群的HDFS与Spark
在虚拟机创建user.txt文件
将user.txt上传到HDFS/input目录下
二、完成任务
(一)新建Maven项目
- 设置项目类型
scala 目录(用的以前的gif不会影响)
(二)添加相关依赖和构建插件
- 在pom.xml 添加依赖
(三)创建日志属性文件
- 添加log4j.properties日志文件
(四)创建统计每日新增用户单例对象
- net.cch.rdd包里创建StatisticsUsers单例对象
(五)本地运行程序,查看结果
- 结果如下