一、提出任务
- 已知有以下用户访问历史数据,第一列为用户访问网站的日期,第二列为用户名:
2022-01-01,mike
2022-01-01,alice
2022-01-01,brown
2022-01-02,mike
2022-01-02,alice
2022-01-02,green
2022-01-03,alice
2022-01-03,smith
2022-01-03,brian
- 现需要根据上述数据统计每日新增的用户数量,期望统计结果
2022-01-01,3
2022-01-02,1
2022-01-03,2
- 即2022-01-01新增了3个用户(分别为mike、alice、brown),2022-01-02新增了1个用户(green),2022-01-03新增了两个用户(分别为smith、brian)。
- 预备工作:启动集群的HDFS与Spark
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/01c2b48b341ab76b096f9bb098198bb8.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/1b729bf4a00481b986600f7b54ad0211.png)
- 将user.txt上传到HDFS/input目录下
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/29a66a23bf949c796a3006605995fad0.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/619680fef2ace476704d8e18324dffba.png)
二、完成任务
(一)新建Maven项目
- 设置项目类型
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/2ae1c785a1dde65b546ff3977fcb4829.png)
- scala 目录(用的以前的gif不会影响)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/0aaf2c64496419314dec2ea7ef61475b.png)
(二)添加相关依赖和构建插件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>net.cch.sql</groupId>
<