一、提出任务
- 已知有以下用户访问历史数据,第一列为用户访问网站的日期,第二列为用户名:
2022-01-01,mike
2022-01-01,alice
2022-01-01,brown
2022-01-02,mike
2022-01-02,alice
2022-01-02,green
2022-01-03,alice
2022-01-03,smith
2022-01-03,brian
- 现需要根据上述数据统计每日新增的用户数量,期望统计结果
2022-01-01,3
2022-01-02,1
2022-01-03,2
- 即2022-01-01新增了3个用户(分别为mike、alice、brown),2022-01-02新增了1个用户(green),2022-01-03新增了两个用户(分别为smith、brian)。
- 预备工作:启动集群的HDFS与Spark
- 将user.txt上传到HDFS/input目录下
二、完成任务
(一)新建Maven项目
- 设置项目类型
- scala 目录(用的以前的gif不会影响)
(二)添加相关依赖和构建插件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0&l