[hiveSQL面试题1]

这篇博客介绍了Hive SQL在面试中的常见问题,包括分组求每门科目成绩前两名的学生信息、行转列、列转行、对比科目成绩以及用户连续交易和访问分析等复杂查询操作,通过实例展示了Hive SQL在数据处理中的应用。
摘要由CSDN通过智能技术生成

一、示例数据:分数信息表数据如下(表名:score_info)

在这里插入图片描述

(一)需求:分组求TopN:求每一门科目,成绩排名前两名的同学的所有信息。

select
    b.name   as name,
    b.course as course,
    b.score  as score,
    b.rank   as rank
from(
    select
        a.name   as name,
        a.course as course,
        a.score  as score,
        row_number() over(partition by course order by score desc) as rank
    from score_info a
)b where b.rank <= 2;

输出结果如下图:
在这里插入图片描述
sql解析:
这里用row_number()函数基于over对象按course分组、分组内按score排序。计算的结果值为每组内部排序后顺序编号。最后查询结果时在语句中加入限制条件rank<=2来过滤选取TopN。
函数扩展:
row_number():无论数据有无重复值,排序均顺序递增(如:1,2,3,4……n)
rank():数据有重复值时,后面排序会跳跃增加(如:1,1,3,3,5……n)
dense_rank():数据有重复值时,后面排序不会跳跃 (如:1,1,2,2,3……n)

(二)需求:行转列

select
    a.name as name,
    max(case when course = '语文' then score end) as chinese,
    max(case when course = '数学' then score end) as math,
    max(case when course = '英语' then score end) as english,
    max(case when course = '政治' then score end) as political
from score_info a
group by name;

输出结果如下图:
在这里插入图片描述
sql解析:
按照name分组的结果进行case when判断,外面套一层聚合函数(sum和max都可以),这样可以避开最终select出的字段必须包含在group by后面字段的限制 。因为每个用户每门课程只能有一个成绩,所以这样就可以得到最终结果。

(三)需求:列转行,将(二)中结果数据表转换成原始表的样子

select
    a.name as name,
    case when tmp.course = 'chinese'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值