文章目录
一、实战概述
-
在这个实战中,我们使用了
Hive
框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。 -
接着,我们启动了
Hive Metastore
服务,并通过Hive客户端连接到Hive
。在Hive
中,我们创建了一个分区表student_score
,用于存储学生的成绩数据,其中分区字段为科目(subject
)。 -
然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。通过这样的分区方式,我们能够更方便地对数据进行查询和分析。
-
最后,我们使用
Hive
的SQL
语句进行统计,计算每个学生在三个科目上的月考平均分。使用了AVG
函数和ROUND
函数来得到每个学生的平均分,并保留一位小数。这样,我们得到了每个学生在语文、数学和英语三个科目上的月考平均分的统计结果。 -
整个实战过程涉及了
Hive
的表创建、分区管理、数据加载和SQL
查询等操作,展示了Hive
在大数据处理中的灵活性和便捷性。通过这次实战,我们能够更好地理解和掌握Hive
框架在数据分析和查询中的应用。
二、提出任务
- 语文月考成绩 -
chinese.txt
1 张晓云 89
2 张晓云 73
3 张晓云 67
4 张晓云 70
5 张晓云 79
6 张晓云 87
7 张晓云 99
8 张晓云 83
9 张晓云 97
10 张晓云 92
11 张晓云 67
12 张晓云 86
1 王东林 49
2 王东林 83
3 王东林 67
4 王东林 49
5 王东林 93
6 王东林 87
7 王东林 65
8 王东林 92
9 王东林 60
10 王东林 94
11 王东林 81
12 王东林 90
1 李宏宇 77
2 李宏宇 66
3 李宏宇 89
4 李宏宇 87
5 李宏宇 96
6 李宏宇 79
7 李宏宇 87
8 李宏宇 96
9 李宏宇 69
10 李宏宇 87
11 李宏宇 96
12 李宏宇 79
- 数学月考成绩 -
math.txt
1 张晓云 79
2 张晓云 83
3 张晓云 77
4 张晓云 90
5 张晓云 89
6 张晓云 67
7 张晓云 89
8 张晓云 93
9 张晓云 90
10 张晓云 82
11 张晓云 77
12 张晓云 96
1 王东林 78
2 王东林 94
3 王东林 76
4 王东林 70
5 王东林 90
6 王东林 83
7 王东林 85
8 王东林 82
9 王东林 84
10 王东林 78
11 王东林 99
12 王东林 93
1 李宏宇 86
2 李宏宇 81
3 李宏宇 76
4 李宏宇 93
5 李宏宇 88
6 李宏宇 82
7 李宏宇 81
8 李宏宇 93
9 李宏宇 86
10 李宏宇 90
11 李宏宇 67
12 李宏宇 88
- 英语月考成绩 -
english.txt
1 张晓云 78
2 张晓云 83
3 张晓云 92
4 张晓云 66
5 张晓云 82
6 张晓云 89
7 张晓云 79
8 张晓云 68
9 张晓云 96
10 张晓云 91
11 张晓云 87
12 张晓云 82
1 王东林 69
2 王东林 86
3 王东林 73
4 王东林 99
5 王东林 67
6 王东林 95
7 王东林 74
8 王东林 92
9 王东林 76
10 王东林 88
11 王东林 92
12 王东林 56
1 李宏宇 88
2 李宏宇 78
3 李宏宇 92
4 李宏宇 78
5 李宏宇 89
6 李宏宇 76
7 李宏宇 92
8 李宏宇 75
9 李宏宇 88
10 李宏宇 92
11 李宏宇 97
12 李宏宇 85
- 利用Hive框架,统计每个同学各科月考平均分
三、完成任务
(一)准备数据
- 启动hadoop服务
1、在虚拟机上创建文本文件
- 创建
subjectavg
目录,以下文件内容可在上面复制 - 在里面创建
chinese.txt
文件 - 创建
math.txt
- 创建
english.txt
2、上传文件到HDFS指定目录
- 创建/subjectavg/input目录,执行命令:
hdfs dfs -mkdir -p /subjectavg/input
- 将文本文件
chinese.txt
、math.txt
与english.txt
,上传到HDFS
的/subjectavg/input
目录
hdfs dfs -put chinese.txt /subjectavg/input/
hdfs dfs -put math.txt /subjectavg/input/
hdfs dfs -put english.txt /subjectavg/input/
(二)实现步骤
1、启动Hive Metastore服务
- 执行命令:
hive --service metastore &
,在后台启动metastore
服务
2、启动Hive客户端
- 执行命令:
hive
,看到命令提示符hive>
3、创建分区的学生成绩表
执行语句:create table student_score ( id int, name string, score int ) partitioned by (subject string) row format delimited fields terminated by ' ';
4、按分区加载数据
- 加载
chinese.txt
到chinese
分区
load data inpath "/subjectavg/input/chinese.txt" overwrite into table student_score partition(subject="chinese");
- 加载math.txt到math分区
load data inpath "/subjectavg/input/math.txt" overwrite into table student_score partition(subject="math");
- 加载english.txt到english分区
load data inpath "/subjectavg/input/english.txt" overwrite into table student_score partition(subject="english");
5、查看分区表全部记录
- 执行语句:
select * from student_score;
6、统计每个学生三科月考平均分
- 执行语句:
SELECT name, ROUND(AVG(CASE WHEN subject = 'chinese' THEN score ELSE NULL END), 1) AS chinese_avg, ROUND(AVG(CASE WHEN subject = 'math' THEN score ELSE NULL END), 1) AS math_avg, ROUND(AVG(CASE WHEN subject = 'english' THEN score ELSE NULL END), 1) AS english_avg FROM student_score GROUP BY name;
SELECT
子句
name
: 选择学生的姓名。
ROUND(AVG(CASE WHEN subject = 'chinese' THEN score ELSE NULL END), 1) AS chinese_avg
: 计算学生在"chinese
"科目的平均分数,并将结果四舍五入到一位小数。使用CASE
语句,只有当科目是"chinese
"时才考虑该分数,否则将其视为NULL
。
ROUND(AVG(CASE WHEN subject = 'math' THEN score ELSE NULL END), 1) AS math_avg
: 计算学生在"math
"科目的平均分数,同样将结果四舍五入到一位小数。
ROUND(AVG(CASE WHEN subject = 'english' THEN score ELSE NULL END), 1) AS english_avg
: 计算学生在"english
"科目的平均分数,同样将结果四舍五入到一位小数。
FROM
子句
student_score
: 表示数据来自名为student_score
的表。
GROUP BY
子句
GROUP BY name
: 将结果按学生姓名进行分组,以便计算每个学生在不同科目上的平均分数。
因此,这个查询将返回一个结果集,其中包含每个学生的姓名以及他们在"chinese
"、"math
"和"english
"科目上的平均分数,四舍五入到一位小数。
四、实战总结
- 本次实战运用
Hive
处理学生月考成绩数据,通过创建分区表、加载各科目成绩至对应分区,并使用SQL
语句计算平均分,展示了Hive
在大数据管理、分析查询及统计计算上的灵活性与便捷性。