数据分析-Hive学习 Day4

本文详细介绍了Hive的基础语法,包括SELECT、GROUP BY和ORDER BY,以及常用函数如from_unixtime、datediff、case when、substring等在数据分析中的应用。通过实例展示了如何进行数据分类汇总、日期转换、条件判断和聚合统计,帮助读者掌握Hive在业务指标分析中的技巧。
摘要由CSDN通过智能技术生成

目标:
1、掌握hive基础语法、常用函数及其组合使用
2、掌握一些基本业务指标的分析思路与实现技巧

一、基础语法

1、SELECT ... A... FORM ...B... WHERE ...C...

1)某次经营活动中,商家发起了“异性拼团购”,试着针对某个地区的用户进行推广,找出匹配用户。

"选出城市在北京,性别位女的10个用户名"
select user_name
from user_info
where city='beijing' and sex='female'
limit 10;

注意:如果该表是一个分区表,则where条件中必须对分区字段进行限制

2)选出在2018年12月31日,购买的商品品类是food的用户名、购买数量、支付金额

select user_name
    ,piece
    ,pay_amount
from user_trade
where dt='2018-12-31' and goods_category='food';

2、GROUP BY(分类汇总)

3)试着对本公司2019年第一季度商品的热度与价值度进行分析。
"2019年一月到三月,每个品类有多少人购买,累计金额是多少"

    SELECT goods_category
        ,count(user_name) as user_num
        ,sum(pay_amount) as total_amount
    from user_trade
    WHERE dt between '2019-01-01' and '2019-03-31'
    group by goods_category

常用的聚会函数:
1、count():计数  count(distinct...)去重计数
2、sum():求和
3、avg():平均值
4、max():最大值
5、min():最小值

GROUP BY ... HAVING(分类汇总过滤)

4)找出在2019年4月支付金额超过5万元的用户,给这些VIP用户赠送优惠券

    SELECT user_name,sum(pay_amount) as total_amount
    from user_trade
    WHERE dt between '2019-04-01' and '2019-04-30'
    group by user_name
    HAVING sum(pay_amount)>50000;

3、ORDER BY(排序)

5)2019年4月,支付金额最多的TOP5用户

    SELECT user_name,sum(pay_amount) as total_amount
    from user_trade
    WHERE dt between '2019-04-01' and '2019-04-30'
    group by user_name
    order by total_amount desc
    limit 5;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值