通过sparkSql的分析学生成绩在全校、全区、全市的排名
最近在公司做了一个关于学生成绩的排名、因为数据量很大,导入mysql后跑不起来,因此用spark来做的。当然用hive也能做,将hdfs上的数据load到hive中然后使用sql语句进行查询,如果会编码的话不建议这么做,因为它的底层还是转换成mapreduce提交执行,效率不够高。
代码
pom依赖
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.2.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/log4j/log4j -->
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
&