一、提出任务
- 已知有以下用户访问历史数据,第一列为用户访问网站的日期,第二列为用户名
- 预备工作:启动集群的HDFS与Spark
![](https://img-blog.csdnimg.cn/7ed37b14c6604df789132b9dfc7b6813.png)
- 在虚拟机创建user.txt文件
![](https://img-blog.csdnimg.cn/26996cef1b5342faa504eaca5411f393.png)
将user.txt上传到HDFS/input目录下
执行spark-shell命令![](https://img-blog.csdnimg.cn/7d2ec02a40324d0fa5c1d700bf19a1eb.png)
二、完成任务
(一)读取文件,得到RDD
- 执行命令:val rdd = sc.textFile(“hdfs://master:9000/input/user.txt”)
(二)倒排,互换RDD中元组的元素顺序![](https://img-blog.csdnimg.cn/aefae71bdf964bdd9b2570ee4b631f34.png)
(三)倒排后的RDD按键分组
- 执行命令: rdd2.collect.foreach(println)
![](https://img-blog.csdnimg.cn/ad39a042457b4d5bbe9d4488997213ab.png)