一、提出任务
- 有多科成绩表,比如python.txt、spark.txt、django.txt,计算每个学生三科平均分
- Python成绩表 - python.txt
-
1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86 -
Django成绩表 -django.txt
-
1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86Spark成绩表 -spark.txt
-
1 张三 89
2 李四 90
3 王五 89
4 赵六 70
5 叶凡 79
6 石昊 97
7 楚阳 79
8 李天命 86 - 预备工作:启动集群的HDFS与Spark
- 在HDFS上新建/score目录
- 在master虚拟机上新建一个file文件,在file创建三个成绩文件
- 将文件上传到hdfs上的score目录下
- 查看文件内容
二、完成任务
(一)新建Maven项目
- 设置项目类型
- scala目录(用的以前的gif不会影响)
(二)添加相关依赖和构建插件
在pom.xml 添加依赖
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>ne