一、提出任务
- 分组求TopN是大数据领域常见的需求,主要是根据数据的某一列进行分组,然后将分组后的每一组数据按照指定的列进行排序,最后取每一组的前N行数据。
- 有一组学生成绩数据
查看mysql数据表t_score
预备工作:启动集群的HDFS与Spark
二、完成任务
(一)新建Maven项目
- 设置项目类型
增加scala目录
(二)添加相关依赖和构建插件
- 在pom.xml 添加依赖
(三)创建日志属性文件
- 添加log4j.properties日志文件
(四)创建分组排行榜单例对象
- 创建GradeTopNSQL单例对象
编写GradeTopNSQL代码
(五)本地运行程序,查看结果
- 在控制台查看输出结果